Surveiller les performances d’un serveur Linux reste une compétence essentielle pour tout administrateur en 2025. Entre diagnostics rapides et analyses historiques, la ligne de commande fournit des outils fiables et reproductibles.
Commencez par mémoriser les indicateurs prioritaires puis choisissez l’outil adapté selon l’incident détecté. Retenez d’abord quelques métriques critiques avant d’attaquer l’analyse détaillée.
A retenir :
- Usage CPU et charge moyenne pour processus gourmands
- Temps d’attente disque et I/O pour goulets d’étranglement
- Bande passante et latence réseau pour pannes distribuées
- Métriques historiques pour corréler pics et changements applicatifs
Surveillance CPU et processus avec top, htop et nmon
Après avoir listé les indicateurs prioritaires, la supervision CPU s’appuie sur des outils interactifs et non interactifs. Ces outils permettent d’isoler rapidement les processus gourmands et d’évaluer l’impact système en temps réel.
Parmi eux, top fournit une vue immédiate des PID, %CPU et %MEM utile pour un diagnostic express. Selon LeMagIT, la combinaison de top et htop accélère l’identification des anomalies pendant une intervention.
Outil
Type
Interaction
Usage privilégié
top
Processus
Terminal interactif
Diagnostic immédiat
htop
Processus
Interface améliorée
Gestion interactive des tâches
nmon
Enregistrement
Mode capture
Analyse post-mortem et export CSV
mpstat
Statistiques
Non interactif
Détail par cœur et usage historique
vmstat
Métriques
Non interactif
Vue système mémoire et I/O courts
Outils CPU recommandés :
- top pour vue immédiate
- htop pour interface interactive
- nmon pour capture et archivage
- mpstat pour détail par cœur
« Après dix ans d’administration, j’utilise top pour le diagnostic instantané et nmon pour les enquêtes historiques »
Alex N.
Glances ou dstat offrent une lecture synthétique avant un creusement ciblé. Préparez ensuite les commandes disque et réseau pour diagnostiquer un problème systémique plus large.
Analyse E/S et stockage : iotop, iostat, dstat et collectl
Dans la continuité des mesures CPU, il faut vérifier le sous-système disque dès que l’I/O influence les temps de réponse applicatifs. Ces vérifications permettent de distinguer contention applicative et défaillance matérielle rapidement.
Les outils iotop et iostat identifient respectivement processus et périphériques responsables d’une charge I/O. Selon DevSecOps, collectl et dstat sont pratiques pour corréler I/O disque et usage CPU sur des incidents complexes.
Repérer les goulets d’étranglement disque avec iotop et iostat
Pour localiser un goulet d’étranglement, iotop identifie les processus producteurs d’I/O. iostat corrèle ces charges avec les périphériques et les files d’attente observées pour affiner le diagnostic.
Signes disque fréquents :
- Latence élevée et files d’attente I/O persistantes
- Processus avec fort KB_READ ou KB_WRITTEN en continu
- Attentes swap récurrentes malgré mémoire disponible
- Erreur de filesystem ou montage bloqué lors d’opérations
Type de périphérique
Indicateur clé
Outil recommandé
Action typique
SSD
Latency faible mais pics I/O
iostat, iotop
Vérifier filesystems et queue depth
HDD
Temps d’attente variable
iostat
Analyser fragmentation et planification
NFS
Débit et latence réseau dépendants
iostat, dstat
Corréler réseau et métriques serveur
RAID
Rebuild et hotspots
collectl
Surveiller activité rebuild et IOPS
« Lors d’un incident de production, iotop m’a permis d’identifier un processus sauvegarde mal configuré »
Marie N.
Mesures et remédiations rapides avec collectl et dstat
Cette partie montre comment collectl et dstat aident à corréler métriques et actions de remédiation. Les exports peuvent alimenter des scripts d’automatisation pour actions correctives répétables.
Actions remédiation rapides :
- Identifier processus lourds et limiter I/O
- Déplacer sauvegardes hors fenêtre de production
- Ajuster queue depth ou scheduler disque
- Planifier maintenance pour rebuild RAID
Une fois le stockage analysé, il restera à inspecter la couche réseau pour exclure un problème distribué. Cette inspection est souvent décisive pour les architectures microservices.
Réseau et vigilance : tcpdump, nethogs, iftop et Suricata
Après l’inspection du stockage, un problème peut encore provenir du réseau, d’où l’importance des captures et analyses de paquets. Les outils de capture permettent de suivre flux et d’isoler anomalies distribuées.
Pour les captures, tcpdump produit des fichiers pcap exploitables par Wireshark pour une analyse approfondie. Selon Geekflare, maîtriser les filtres BPF réduit le bruit et accélère l’identification du flux problématique.
Commandes capture réseau :
- tcpdump pour captures filtrées
- nethogs pour bande passante par processus
- iftop pour observer débits pairs
- ss pour sockets et états TCP
« J’ai résolu une panne intermittente en corrélant tcpdump et les logs d’application, ce fut décisif »
Pierre N.
Pour la sécurité et les alertes, Suricata et Nagios complètent la panoplie en fournissant détection d’anomalies et supervision centralisée. L’intégration d’alertes exploitables réduit l’impact business des incidents réseau.
« Mon équipe a déployé Suricata et Nagios pour obtenir alertes exploitables sans trop de faux positifs »
Claire N.
Pour approfondir, consultez des démonstrations pratiques et captures pcap pour apprendre les filtres BPF. La maîtrise de ces outils facilite la coopération entre équipes infra et développement.
La corrélation entre métriques CPU, disque et réseau est un travail d’assemblage de preuves. Pour gagner du temps, automatisez la collecte avec sar, pidstat et glances pour obtenir des séries temporelles exploitables.