Les meilleures commandes Linux pour surveiller les performances système

Surveiller les performances d’un serveur Linux reste une compétence essentielle pour tout administrateur en 2025. Entre diagnostics rapides et analyses historiques, la ligne de commande fournit des outils fiables et reproductibles.

Commencez par mémoriser les indicateurs prioritaires puis choisissez l’outil adapté selon l’incident détecté. Retenez d’abord quelques métriques critiques avant d’attaquer l’analyse détaillée.

A retenir :

  • Usage CPU et charge moyenne pour processus gourmands
  • Temps d’attente disque et I/O pour goulets d’étranglement
  • Bande passante et latence réseau pour pannes distribuées
  • Métriques historiques pour corréler pics et changements applicatifs

Surveillance CPU et processus avec top, htop et nmon

Après avoir listé les indicateurs prioritaires, la supervision CPU s’appuie sur des outils interactifs et non interactifs. Ces outils permettent d’isoler rapidement les processus gourmands et d’évaluer l’impact système en temps réel.

Parmi eux, top fournit une vue immédiate des PID, %CPU et %MEM utile pour un diagnostic express. Selon LeMagIT, la combinaison de top et htop accélère l’identification des anomalies pendant une intervention.

A lire également :  Gérer les services au démarrage avec systemd : le guide simple

Outil Type Interaction Usage privilégié
top Processus Terminal interactif Diagnostic immédiat
htop Processus Interface améliorée Gestion interactive des tâches
nmon Enregistrement Mode capture Analyse post-mortem et export CSV
mpstat Statistiques Non interactif Détail par cœur et usage historique
vmstat Métriques Non interactif Vue système mémoire et I/O courts

Outils CPU recommandés :

  • top pour vue immédiate
  • htop pour interface interactive
  • nmon pour capture et archivage
  • mpstat pour détail par cœur

« Après dix ans d’administration, j’utilise top pour le diagnostic instantané et nmon pour les enquêtes historiques »

Alex N.

Glances ou dstat offrent une lecture synthétique avant un creusement ciblé. Préparez ensuite les commandes disque et réseau pour diagnostiquer un problème systémique plus large.

Analyse E/S et stockage : iotop, iostat, dstat et collectl

Dans la continuité des mesures CPU, il faut vérifier le sous-système disque dès que l’I/O influence les temps de réponse applicatifs. Ces vérifications permettent de distinguer contention applicative et défaillance matérielle rapidement.

Les outils iotop et iostat identifient respectivement processus et périphériques responsables d’une charge I/O. Selon DevSecOps, collectl et dstat sont pratiques pour corréler I/O disque et usage CPU sur des incidents complexes.

A lire également :  Les meilleures distributions linux pour les développeurs

Repérer les goulets d’étranglement disque avec iotop et iostat

Pour localiser un goulet d’étranglement, iotop identifie les processus producteurs d’I/O. iostat corrèle ces charges avec les périphériques et les files d’attente observées pour affiner le diagnostic.

Signes disque fréquents :

  • Latence élevée et files d’attente I/O persistantes
  • Processus avec fort KB_READ ou KB_WRITTEN en continu
  • Attentes swap récurrentes malgré mémoire disponible
  • Erreur de filesystem ou montage bloqué lors d’opérations

Type de périphérique Indicateur clé Outil recommandé Action typique
SSD Latency faible mais pics I/O iostat, iotop Vérifier filesystems et queue depth
HDD Temps d’attente variable iostat Analyser fragmentation et planification
NFS Débit et latence réseau dépendants iostat, dstat Corréler réseau et métriques serveur
RAID Rebuild et hotspots collectl Surveiller activité rebuild et IOPS

« Lors d’un incident de production, iotop m’a permis d’identifier un processus sauvegarde mal configuré »

Marie N.

Mesures et remédiations rapides avec collectl et dstat

A lire également :  Comment installer un logiciel sous linux en ligne de commande

Cette partie montre comment collectl et dstat aident à corréler métriques et actions de remédiation. Les exports peuvent alimenter des scripts d’automatisation pour actions correctives répétables.

Actions remédiation rapides :

  • Identifier processus lourds et limiter I/O
  • Déplacer sauvegardes hors fenêtre de production
  • Ajuster queue depth ou scheduler disque
  • Planifier maintenance pour rebuild RAID

Une fois le stockage analysé, il restera à inspecter la couche réseau pour exclure un problème distribué. Cette inspection est souvent décisive pour les architectures microservices.

Réseau et vigilance : tcpdump, nethogs, iftop et Suricata

Après l’inspection du stockage, un problème peut encore provenir du réseau, d’où l’importance des captures et analyses de paquets. Les outils de capture permettent de suivre flux et d’isoler anomalies distribuées.

Pour les captures, tcpdump produit des fichiers pcap exploitables par Wireshark pour une analyse approfondie. Selon Geekflare, maîtriser les filtres BPF réduit le bruit et accélère l’identification du flux problématique.

Commandes capture réseau :

  • tcpdump pour captures filtrées
  • nethogs pour bande passante par processus
  • iftop pour observer débits pairs
  • ss pour sockets et états TCP

« J’ai résolu une panne intermittente en corrélant tcpdump et les logs d’application, ce fut décisif »

Pierre N.

Pour la sécurité et les alertes, Suricata et Nagios complètent la panoplie en fournissant détection d’anomalies et supervision centralisée. L’intégration d’alertes exploitables réduit l’impact business des incidents réseau.

« Mon équipe a déployé Suricata et Nagios pour obtenir alertes exploitables sans trop de faux positifs »

Claire N.

Pour approfondir, consultez des démonstrations pratiques et captures pcap pour apprendre les filtres BPF. La maîtrise de ces outils facilite la coopération entre équipes infra et développement.

La corrélation entre métriques CPU, disque et réseau est un travail d’assemblage de preuves. Pour gagner du temps, automatisez la collecte avec sar, pidstat et glances pour obtenir des séries temporelles exploitables.

Articles sur ce même sujet

Laisser un commentaire