Baseline Dashboards: CPU, Memory PSI, Disk Latency, Network Errors

Ein solides Baseline-Dashboard ist für jeden Linux-Server essentiell, um die Systemperformance kontinuierlich zu überwachen und Abweichungen frühzeitig zu erkennen. Dabei sollten CPU-Auslastung, Memory Pressure, Disk-Latenzen und Netzwerkfehler im Fokus stehen. Eine korrekte Basisermittlung ermöglicht es, Alarmgrenzen zu definieren und die Infrastruktur effizient zu betreiben.

CPU Monitoring

Die CPU-Auslastung ist ein zentraler Indikator für Systemlast und Performance-Engpässe. Hierbei sollten sowohl die Gesamtauslastung als auch die Last pro Core betrachtet werden.

Messung mit top und mpstat

# Gesamt-CPU-Auslastung
top -b -n1 | grep "Cpu(s)"

Last pro Core

mpstat -P ALL 1 1

Wichtige Metriken

  • usr: Zeit für User-Prozesse
  • sys: Zeit für Kernel-Prozesse
  • iowait: Zeit, in der CPU auf I/O wartet
  • idle: Leerlaufzeit

Memory Monitoring und PSI

Memory Pressure Indicators (PSI) geben Auskunft über Speicherengpässe und Warteschlangen bei CPU, Memory oder I/O. Sie sind präziser als herkömmliche Auslastungszahlen.

PSI aktivieren und auslesen

# Prüfen, ob PSI verfügbar ist
ls /proc/pressure/

Memory PSI

cat /proc/pressure/memory

Interpretation

  • some: Anteil der Zeit, in der Tasks auf Speicher warten
  • full: Anteil der Zeit, in der alle Tasks gleichzeitig warten
  • avg10/60/300: 10-, 60- und 300-Sekunden gleitender Durchschnitt

Disk-Latenzen messen

Die Disk-Latenz wirkt sich direkt auf die Anwendungsperformance aus. Tools wie iostat oder fio helfen, Latenzen systematisch zu ermitteln.

iostat verwenden

# Echtzeit-Statistik für Blockdevices
iostat -x 1 10

Wichtige Kennzahlen

rrqm/s: Zusammengefasste Lese-Requests

wrqm/s: Zusammengefasste Schreib-Requests

await: durchschnittliche Wartezeit pro Request

svctm: Service-Zeit pro Request

%util: Prozentuale Auslastung des Gerätes

fio für Lastsimulation

fio --name=randread --ioengine=libaio --rw=randread --bs=4k --size=1G --numjobs=4 --runtime=60 --group_reporting

Netzwerk Errors überwachen

Fehler auf Interfaces können zu Paketverlust, Verzögerungen oder Serviceausfällen führen. Das Monitoring von Network Errors ist essenziell.

ifconfig oder ip verwenden

# Anzeigen von Fehlern und Dropped-Paketen
ifconfig eth0
# oder moderner:
ip -s link show eth0

Wichtige Kennzahlen

  • RX errors / TX errors: Empfangs- bzw. Sende-Fehler
  • RX dropped / TX dropped: Verworfene Pakete
  • collisions: Kollisionen in alten Ethernet-Setups

Dashboard Aufbau

Ein Baseline-Dashboard sollte die Kernmetriken auf einen Blick visualisieren:

  • CPU-Auslastung pro Core, iowait und load average
  • Memory Usage und PSI Werte
  • Disk-Latenzen, IOPS, %util
  • Network Interface Errors, Dropped Packets

Empfohlene Tools

  • Grafana zur Visualisierung
  • Prometheus Node Exporter für Metriken
  • Alertmanager für Benachrichtigungen bei Überschreitung von Thresholds

Alarmgrenzen und Trendanalyse

Baselines dienen dazu, Abweichungen zu erkennen. Trendanalysen ermöglichen es, Wachstum von Lasten vorherzusagen und Kapazitätsengpässe zu vermeiden.

Beispielhafte Grenzwerte

  • CPU Load pro Core < 70 %
  • Memory PSI full < 5 %
  • Disk await < 5 ms
  • Network errors < 0,01 %

Mit einer strukturierten Baseline-Dashboard-Strategie lassen sich Performance, Stabilität und Fehlersuche auf Linux-Servern deutlich verbessern. CPU, Memory PSI, Disk Latenz und Netzwerkfehler bilden die Grundlage für proaktives Monitoring und eine stabile Infrastruktur.

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab/GNS3

Ich biete professionelle Unterstützung im Bereich Netzwerkkonfiguration und Network Automation für private Anforderungen, Studienprojekte, Lernlabore, kleine Unternehmen sowie technische Projekte. Ich unterstütze Sie bei der Konfiguration von Routern und Switches, der Erstellung praxisnaher Topologien in Cisco Packet Tracer, dem Aufbau und Troubleshooting von GNS3- und EVE-NG-Labs sowie bei der Automatisierung von Netzwerkaufgaben mit Netmiko, Paramiko, NAPALM und Ansible. Kontaktieren Sie mich jetzt – klicken Sie hier.

Meine Leistungen umfassen:

  • Professionelle Konfiguration von Routern und Switches

  • Einrichtung von VLANs, Trunks, Routing, DHCP, NAT, ACLs und weiteren Netzwerkfunktionen

  • Erstellung von Topologien und Simulationen in Cisco Packet Tracer

  • Aufbau, Analyse und Fehlerbehebung von Netzwerk-Labs in GNS3 und EVE-NG

  • Automatisierung von Netzwerkkonfigurationen mit Python, Netmiko, Paramiko, NAPALM und Ansible

  • Erstellung von Skripten für wiederkehrende Netzwerkaufgaben

  • Dokumentation der Konfigurationen und Bereitstellung nachvollziehbarer Lösungswege

  • Konfigurations-Backups, Optimierung bestehender Setups und technisches Troubleshooting

Benötigen Sie Unterstützung bei Ihrem Netzwerkprojekt, Ihrer Simulation oder Ihrer Network-Automation-Lösung? Kontaktieren Sie mich jetzt – klicken Sie hier.

Related Articles