Baseline Dashboards: CPU, Memory PSI, Disk Latency, Network Errors

Red Snapper

3 months ago

Ein solides Baseline-Dashboard ist für jeden Linux-Server essentiell, um die Systemperformance kontinuierlich zu überwachen und Abweichungen frühzeitig zu erkennen. Dabei sollten CPU-Auslastung, Memory Pressure, Disk-Latenzen und Netzwerkfehler im Fokus stehen. Eine korrekte Basisermittlung ermöglicht es, Alarmgrenzen zu definieren und die Infrastruktur effizient zu betreiben.

CPU Monitoring

Die CPU-Auslastung ist ein zentraler Indikator für Systemlast und Performance-Engpässe. Hierbei sollten sowohl die Gesamtauslastung als auch die Last pro Core betrachtet werden.

Messung mit top und mpstat

# Gesamt-CPU-Auslastung
top -b -n1 | grep "Cpu(s)"
Last pro Core
mpstat -P ALL 1 1

Wichtige Metriken

usr: Zeit für User-Prozesse
sys: Zeit für Kernel-Prozesse
iowait: Zeit, in der CPU auf I/O wartet
idle: Leerlaufzeit

Memory Monitoring und PSI

Memory Pressure Indicators (PSI) geben Auskunft über Speicherengpässe und Warteschlangen bei CPU, Memory oder I/O. Sie sind präziser als herkömmliche Auslastungszahlen.

PSI aktivieren und auslesen

# Prüfen, ob PSI verfügbar ist
ls /proc/pressure/
Memory PSI
cat /proc/pressure/memory

Interpretation

some: Anteil der Zeit, in der Tasks auf Speicher warten
full: Anteil der Zeit, in der alle Tasks gleichzeitig warten
avg10/60/300: 10-, 60- und 300-Sekunden gleitender Durchschnitt

Disk-Latenzen messen

Die Disk-Latenz wirkt sich direkt auf die Anwendungsperformance aus. Tools wie iostat oder fio helfen, Latenzen systematisch zu ermitteln.

iostat verwenden

# Echtzeit-Statistik für Blockdevices
iostat -x 1 10
Wichtige Kennzahlen
rrqm/s: Zusammengefasste Lese-Requests
wrqm/s: Zusammengefasste Schreib-Requests
await: durchschnittliche Wartezeit pro Request
svctm: Service-Zeit pro Request
%util: Prozentuale Auslastung des Gerätes

fio für Lastsimulation

fio --name=randread --ioengine=libaio --rw=randread --bs=4k --size=1G --numjobs=4 --runtime=60 --group_reporting

Netzwerk Errors überwachen

Fehler auf Interfaces können zu Paketverlust, Verzögerungen oder Serviceausfällen führen. Das Monitoring von Network Errors ist essenziell.

ifconfig oder ip verwenden

# Anzeigen von Fehlern und Dropped-Paketen
ifconfig eth0
# oder moderner:
ip -s link show eth0

Wichtige Kennzahlen

RX errors / TX errors: Empfangs- bzw. Sende-Fehler
RX dropped / TX dropped: Verworfene Pakete
collisions: Kollisionen in alten Ethernet-Setups

Dashboard Aufbau

Ein Baseline-Dashboard sollte die Kernmetriken auf einen Blick visualisieren:

CPU-Auslastung pro Core, iowait und load average
Memory Usage und PSI Werte
Disk-Latenzen, IOPS, %util
Network Interface Errors, Dropped Packets

Empfohlene Tools

Grafana zur Visualisierung
Prometheus Node Exporter für Metriken
Alertmanager für Benachrichtigungen bei Überschreitung von Thresholds

Alarmgrenzen und Trendanalyse

Baselines dienen dazu, Abweichungen zu erkennen. Trendanalysen ermöglichen es, Wachstum von Lasten vorherzusagen und Kapazitätsengpässe zu vermeiden.

Beispielhafte Grenzwerte

CPU Load pro Core < 70 %
Memory PSI full < 5 %
Disk await < 5 ms
Network errors < 0,01 %

Mit einer strukturierten Baseline-Dashboard-Strategie lassen sich Performance, Stabilität und Fehlersuche auf Linux-Servern deutlich verbessern. CPU, Memory PSI, Disk Latenz und Netzwerkfehler bilden die Grundlage für proaktives Monitoring und eine stabile Infrastruktur.

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab/GNS3

Ich biete professionelle Unterstützung im Bereich Netzwerkkonfiguration und Network Automation für private Anforderungen, Studienprojekte, Lernlabore, kleine Unternehmen sowie technische Projekte. Ich unterstütze Sie bei der Konfiguration von Routern und Switches, der Erstellung praxisnaher Topologien in Cisco Packet Tracer, dem Aufbau und Troubleshooting von GNS3- und EVE-NG-Labs sowie bei der Automatisierung von Netzwerkaufgaben mit Netmiko, Paramiko, NAPALM und Ansible. Kontaktieren Sie mich jetzt – klicken Sie hier.

Meine Leistungen umfassen:

Professionelle Konfiguration von Routern und Switches
Einrichtung von VLANs, Trunks, Routing, DHCP, NAT, ACLs und weiteren Netzwerkfunktionen
Erstellung von Topologien und Simulationen in Cisco Packet Tracer
Aufbau, Analyse und Fehlerbehebung von Netzwerk-Labs in GNS3 und EVE-NG
Automatisierung von Netzwerkkonfigurationen mit Python, Netmiko, Paramiko, NAPALM und Ansible
Erstellung von Skripten für wiederkehrende Netzwerkaufgaben
Dokumentation der Konfigurationen und Bereitstellung nachvollziehbarer Lösungswege
Konfigurations-Backups, Optimierung bestehender Setups und technisches Troubleshooting

Benötigen Sie Unterstützung bei Ihrem Netzwerkprojekt, Ihrer Simulation oder Ihrer Network-Automation-Lösung? Kontaktieren Sie mich jetzt – klicken Sie hier.