„Es geht nicht“ ist die häufigste, aber auch die unbrauchbarste Fehlermeldung im On-Call. Sie sagt nichts darüber aus, ob das Problem am Client, im Access-Netz, im Core, im WAN, in der Cloud, an einer Firewall oder in der Anwendung liegt. Genau deshalb brauchen On-Call Engineers eine Netzwerk-Triage Checkliste, die in wenigen Minuten aus einem vagen Symptom eine technische Richtung macht: Was ist der Impact? Welche Fehlerdomäne ist am wahrscheinlichsten? Welche Evidence ist belastbar genug, um eine Mitigation zu starten oder gezielt zu eskalieren? Dieser Artikel liefert eine praxiserprobte Checkliste für Netzwerk-Triage, die sich in komplexen Umgebungen bewährt: Campus und Rechenzentrum, Hybrid-Cloud, SD-WAN/VPN, Zero-Trust-Perimeter und Multi-Provider-Anbindungen. Sie lernen, wie Sie systematisch messen statt zu raten, welche Fragen Sie den Meldenden stellen müssen, welche „Golden Signals“ die höchste Aussagekraft haben und wie Sie schnelle Entscheidungen treffen, ohne durch hektische Änderungen weitere Störungen zu erzeugen.
On-Call Mindset: Triage ist nicht Troubleshooting
Im Bereitschaftsdienst ist Zeit der begrenzende Faktor. Triage bedeutet: die Störung so weit einzuordnen, dass Sie entweder sicher mitigieren können oder präzise eskalieren. Vollständige Root Cause Analysis ist später dran. Trotzdem muss Triage sauber sein, sonst eskalieren Sie falsch, ändern unnötig Konfigurationen oder verlieren wertvolle Minuten.
- Ziel: Fehlerdomäne eingrenzen, wahrscheinlichste Ursache benennen, nächste Schritte entscheiden
- Nicht-Ziel: jedes Detail beweisen oder alle Layer vollständig prüfen
- Erfolgskriterium: Impact sinkt, Evidenz steigt, Teamkommunikation wird klarer
Vorbereitung: Was Sie vor dem ersten Klick klären müssen
Bevor Sie Tools öffnen, benötigen Sie ein Minimum an Kontext. Ohne diese Informationen erzeugen Sie nur Daten, aber keine Erkenntnis. On-Call heißt nicht „blind reagieren“, sondern strukturiert fragen.
Die fünf Fragen, die Sie sofort stellen sollten
- Was genau geht nicht? DNS, Login, VPN, Website, API, VoIP, interne App, nur Uploads, nur Downloads?
- Wer ist betroffen? alle Nutzer, einzelne Teams, ein Standort, ein VLAN/VRF, nur externe Nutzer?
- Seit wann? exakte Zeit (für Korrelation mit Changes, Provider-Events, Batch-Jobs)
- Was funktioniert noch? Vergleichsservice, anderes Gerät, anderer Standort, Mobilfunk statt WLAN
- Gab es Änderungen? Deployments, Firewall-Policy, Routing, SD-WAN-Profile, Zertifikate, DNS
Praxisregel: Wenn Sie nach 60 Sekunden nicht sagen können, ob es eher „Standort/Access“, „WAN/Provider“, „Security/Policy“ oder „Service/Applikation“ ist, fehlt Kontext – nicht Technik.
Die Netzwerk-Triage Checkliste: Schritt für Schritt
Die folgende Checkliste ist so aufgebaut, dass sie in den ersten 10–15 Minuten maximalen Signalgewinn liefert. Jeder Schritt hat ein klares Ergebnis: „weiter so“ oder „Richtung wechseln“. Damit vermeiden Sie Tool-Hopping und Aktionismus.
Schritt 1: Impact & Priorität festlegen
- Severity: kompletter Ausfall, Degradation, Teilfunktion gestört
- Business Impact: Kundensysteme, Produktionssysteme, interne Tools, nur einzelne Nutzer
- Blast Radius: global, regionalspezifisch, standortspezifisch, segmentbezogen
- Time Criticality: SLA/SLO relevant? Peak-Zeit? Sicherheitsvorfall möglich?
Schritt 2: Scope eingrenzen (wo tritt es auf?)
- Standortvergleich: funktioniert es aus einem anderen Standort?
- Zugangsart: WLAN vs. Kabel, VPN vs. direkt, Office vs. Homeoffice
- Devicevergleich: nur ein Gerätetyp/OS? nur ein Browser? nur eine App-Version?
- Netzsegment: nur ein VLAN/VRF/Subnetz? nur Gäste-Netz? nur Server-Netz?
Ein schneller Vergleich über einen alternativen Pfad ist eine der effektivsten Trennmessungen: Wenn es über Mobilfunk funktioniert, ist das Zielsystem vermutlich erreichbar – und die Fehlerdomäne liegt im Unternehmensnetz oder VPN.
Schritt 3: Golden Signals gegen Baseline prüfen
Bevor Sie in tiefe Debugging-Tools gehen, prüfen Sie die Kernsignale. Idealerweise als Zeitreihe im Monitoring, nicht nur als Momentaufnahme.
- Latenz: RTT zu Gateway, zu DNS, zu Cloud-Endpoints, zu kritischen Services
- Packet Loss: Loss auf WAN-Tunneln, Drops/Discards auf Interfaces, Policer Drops
- Jitter: relevant für Voice/Video und „sporadische“ Probleme
- Errors: CRC/FCS, Link Flaps, Optical Power (bei Fiber)
- Traffic Shift: ungewöhnliche Auslastung, neue Top Talker, Microbursts
Schritt 4: Pfad verifizieren (nicht annehmen)
In modernen Netzen ist der aktive Pfad selten trivial. Policy Routing, SD-WAN, NAT, Load Balancer und ECMP verändern den Weg. Ihre Triage muss die Pfadfrage beantworten: „Welcher Weg ist für den betroffenen Traffic aktuell aktiv?“
- Routing/Policy: welcher egress, welcher Tunnel, welcher Provider?
- Symmetrie: kommt der Rückweg über denselben Pfad? kritisch bei Stateful Firewalls/NAT
- Edge-Grenzen: wo passiert NAT, wo endet ein Tunnel, wo sitzt die Firewall?
- Load Balancer/Anycast: landet der Traffic auf dem erwarteten Ziel?
Schritt 5: Layer-Checkpoints (L1–L7) für schnelle Entscheidungen
Sie müssen nicht starr von Layer 1 nach Layer 7 durchgehen, aber Sie sollten Checkpoints nutzen, um Hypothesen schnell zu falsifizieren.
- L1: Link up reicht nicht – gibt es CRC/FCS, Flaps, Optik-Anomalien?
- L2: VLAN/Trunk/Port-Channel korrekt? STP-Events? MTU-Inkonsistenz möglich?
- L3: Routing-Änderungen, BGP/OSPF-Events, ECMP-Pfadproblem, VRF-Leaks?
- L4: TCP Handshake (SYN/SYN-ACK) ok? Retransmits? RSTs? UDP Loss/Jitter?
- L7: DNS-Lookup schnell? TLS Handshake ok? HTTP Statuscodes/TTFB auffällig?
Symptomorientierte Checklisten: „Wenn es so aussieht, dann prüfen Sie das“
On-Call lebt von Mustern. Die folgenden Symptomcluster sind in der Praxis besonders häufig und helfen Ihnen, in Minuten die wahrscheinlichste Ursache zu finden.
„Nichts geht“ im Standort (kompletter Ausfall)
- Wahrscheinliche Ursachen: WAN/Last-Mile down, Edge-Firewall/Router down, Strom/Link-Event, DHCP/DNS zentral gestört
- Schnellchecks: Edge-Uplinks/Flaps, Tunnel-Status, Default Gateway erreichbar, DNS-Resolver erreichbar
- Mitigation: Failover auf Backup-Link/zweiten Tunnel, Out-of-Band Zugriff, Provider eskalieren
„Internet langsam“, interne Systeme ok
- Wahrscheinliche Ursachen: Provider/Peering-Problem, Congestion, QoS/Policer auf Internet-Egress, DNS/Proxy/SSL-Inspection
- Schnellchecks: Loss/RTT zu externen Targets, Egress-Interface Drops, Proxy/Firewall Counters
- Mitigation: alternativer ISP/Peering, SD-WAN Path Preference, Inspection temporär reduzieren (nur kontrolliert)
„Nur manche Nutzer/Flows“ betroffen
- Wahrscheinliche Ursachen: ECMP auf fehlerhaften Member, Load-Balancer-Node defekt, WLAN-Roaming/802.1X, Segment-Policy
- Schnellchecks: Korrelation betroffener Flows zu Next-Hop/Member, Health-Checks, AP/Controller Events
- Mitigation: Member drainen, Hash/ECMP prüfen, betroffene APs isolieren, Policy-Rollback (eng begrenzt)
„Login geht, aber Upload hängt“ oder „nur große Transfers“
- Wahrscheinliche Ursachen: MTU/MSS/PMTUD-Problem, Fragmentation blockiert, Tunnel-Overhead
- Schnellchecks: große vs. kleine Requests, TLS/HTTP Timing, Retransmits bei großen Payloads
- Mitigation: MSS-Clamping an Tunnel-Edges, ICMP für PMTUD gezielt erlauben
„VPN instabil“ oder „Remote bricht ab“
- Wahrscheinliche Ursachen: Tunnel Loss/Jitter, NAT/State-Timeouts, Client-WLAN, Provider-Last-Mile
- Schnellchecks: Tunnel-SLA (Loss/Latency/Jitter), Firewall Session Table, Reauth/DPD/BFD Events
- Mitigation: Pfadwechsel, Keepalive/Timeout Anpassung (kontrolliert), alternative Gateway-Region
Evidence-First: Welche Daten Sie im On-Call immer sichern sollten
Wenn Sie nur eine Sache konsequent machen: sammeln Sie Evidence, bevor Sie Änderungen durchführen. So können Sie später beweisen, was geholfen hat, und vermeiden Wiederholungsfehler. Ein gutes On-Call-Protokoll besteht aus wenigen, aber harten Datenpunkten.
- Timeline: Startzeit, Detection, erste Maßnahmen, Mitigation, Stabilisierung
- Scope: betroffene Standorte/Segmente/Services
- Golden Signals: Loss/Latenz/Jitter/Errors/Drops (mit Zeitfenster)
- Pfadnotizen: egress, Tunnel, NAT, Security-Perimeter, Load Balancer
- Change-Context: relevante Deployments/Config-Diffs in der Nähe des Startzeitpunkts
Paketanalyse: Wann sie im On-Call sinnvoll ist
PCAP ist nicht immer der erste Schritt, aber häufig der schnellste Weg zur Wahrheit, wenn Symptome widersprüchlich sind (z. B. „Ping ok, App tot“) oder wenn Sie MTU, Retransmits, TLS Handshakes oder Asymmetrie vermuten. Halten Sie Captures kurz, filtern Sie auf 5-Tuple und messen Sie möglichst nahe an Quelle und Ziel. Referenzen: Wireshark Dokumentation und tcpdump Manpage.
Schnelle Entscheidungen: Mitigation, Eskalation, oder Messung?
On-Call heißt entscheiden. Ihr Ziel ist, Impact zu reduzieren, ohne das System zu destabilisieren. Deshalb sollte Ihre Checkliste klare Kriterien enthalten, wann Sie mitigieren, wann Sie eskalieren und wann Sie weiter messen.
Wann sofort mitigieren?
- Es gibt eine bekannte, risikoarme Mitigation (z. B. Failover auf Backup-Link, fehlerhaften Member drainen).
- Evidence zeigt klar einen Hotspot (z. B. Drops auf einem Link, Flaps, Tunnel Loss).
- Die Maßnahme ist reversibel und hat einen getesteten Rollback.
Wann eskalieren?
- Provider: Loss/RTT-Spikes am WAN-Edge, BGP/Link Flaps, mehrere Standorte betroffen
- Security: Firewall Drops/Policy Hits steigen, Inspection/Signaturen zeitlich korrelieren, DDoS-Verdacht
- Plattform/Applikation: Netzwerkpfad sauber, aber HTTP 5xx, TLS Alerts, Backend-Timeouts dominieren
Wann weiter messen?
- Die Symptome sind inkonsistent oder „nur manchmal“ sichtbar.
- Die Fehlerdomäne ist unklar (z. B. WAN vs. Security vs. Service).
- Mitigation wäre riskant und nicht klar reversibel.
Runbook-Format für On-Call: Kurz, robust, technologieagnostisch
Die beste Checkliste nützt nichts, wenn sie nachts um 03:00 Uhr nicht schnell erfassbar ist. Halten Sie On-Call Runbooks bewusst kurz, mit klaren Abzweigungen und Links zu tieferen Playbooks.
- Ein Bildschirm „Triage“: 10–15 Minuten Ablauf, Golden Signals, Pfad-Check
- Modul-Links: WAN-Loss, DNS langsam, MTU/PMTUD, Firewall Drops, ECMP/Load Balancer
- Evidence Packs: vordefinierte Datensätze je Symptomcluster
- Mitigation-Liste: Low-Risk zuerst, immer mit Rollback und Verifikation
Kommunikation im Incident: Klarheit statt Spekulation
„Es geht nicht“ erzeugt Druck. Mit klaren Updates reduzieren Sie Stress und verhindern unnötige Eingriffe. Kommunizieren Sie in kurzen Zyklen: Impact, aktuelle Hypothese, nächste Maßnahme, nächster Update-Zeitpunkt. Vermeiden Sie Spekulation, nennen Sie Evidence.
- Status: „Standort A hat seit 10:14 Uhr erhöhte Paketverluste am WAN-Edge.“
- Hypothese: „Wahrscheinlich Provider/Last-Mile; alternativer Tunnel wird aktiviert.“
- Nächster Schritt: „Failover + Verifikation über synthetische Checks; Provider-Ticket eröffnet.“
- Update: „Nächstes Update in 15 Minuten oder bei Statusänderung.“
Weiterführende Referenzen für On-Call, Incident Response und Netzwerk-Analyse
- Google SRE Bücher für Incident Response, On-Call-Praktiken und Postmortems
- ITIL als Referenz für Incident- und Problem-Management
- RFC Editor für Primärquellen zu Netzwerkstandards und Protokollverhalten
- Wireshark Dokumentation für Paketanalyse und Troubleshooting-Workflows
- tcpdump Manpage für Capture-Strategien und BPF-Filter
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.












