OSPF-Neighbor Down: Root-Cause-Matrix fürs NOC

Ein „OSPF-Neighbor Down“-Alarm ist im NOC ein Klassiker – und gleichzeitig ein Musterbeispiel dafür, wie schnell man Zeit verliert, wenn die Ursachen nicht strukturiert eingegrenzt werden. OSPF (Open Shortest Path First) ist robust, aber empfindlich gegenüber bestimmten Abweichungen: Eine minimale MTU-Differenz, ein geänderter Timer, ein neues ACL-Template, ein Interface-Reset oder ein physischer Link-Flap kann die…

BGP-Session-Drop: Hold Timer, Policy oder Transport?

Ein BGP-Session-Drop ist für NOC- und On-Call-Teams eines der teuersten Fehlerbilder, weil er selten „nur“ ein Routing-Problem ist. Wenn eine BGP-Session (eBGP oder iBGP) flappt, brechen Routen weg, Rekonvergenz startet, Traffic verschiebt sich, und je nach Topologie entstehen Blackholes, Hot-Potato-Effekte oder unerwartete Pfade. In der Praxis stellen sich nach einem Drop immer dieselben drei Fragen:…

Route Leak in Produktion: Frühe Signale und Mitigation-Schritte

Ein Route Leak in Produktion ist einer der wenigen Vorfälle, die gleichzeitig Netzstabilität, Sicherheit und Geschäftsprozesse betreffen: Plötzlich tauchen „zu viele“ Präfixe in BGP auf, unerwartete Routen werden bevorzugt, Traffic nimmt abwegige Pfade, und innerhalb von Minuten entstehen Latenzspitzen, Paketverlust oder vollständige Blackholes. Besonders tückisch ist, dass ein Route Leak nicht immer wie ein klassischer…

ECMP-Troubleshooting: Warum haben nur manche User Errors?

ECMP-Troubleshooting wird meist dann akut, wenn ein Incident „unfair“ wirkt: Nur manche User sehen Errors, nur bestimmte Sessions timeouten, oder Probleme treten scheinbar zufällig auf – obwohl Monitoring grün ist und ein einfacher Ping funktioniert. Genau dieses Muster ist typisch für Equal-Cost Multi-Path (ECMP): Traffic wird über mehrere gleichwertige Pfade verteilt, meist per Hashing über…

Layer-2-Triage: Broadcast Storm oder Loop? So findest du es sicher heraus

Layer-2-Triage: Broadcast Storm oder Loop? Diese Frage entscheidet in vielen Netzwerken über Minuten oder Stunden Ausfallzeit, weil beide Szenarien ähnliche Symptome erzeugen können: extrem hohe Auslastung auf Switchports, Paketverluste, steigende Latenzen, MAC-Table-Instabilität, CPU-Spikes auf Switches und plötzlich „flappende“ L2-Nachbarschaften. In der Hektik eines Incidents ist es verführerisch, sofort Ports zu shutten oder ganze Segmente zu…

Asymmetrisches Routing: Auswirkungen auf Firewalls und schnelle Diagnose

Asymmetrisches Routing ist einer der häufigsten Gründe dafür, dass Netzprobleme „unlogisch“ wirken: Ping geht, aber TCP-Verbindungen brechen ab; manche Nutzer können sich anmelden, andere bekommen Timeouts; und aus Sicht einzelner Komponenten sieht alles gesund aus. Besonders kritisch wird asymmetrisches Routing in Umgebungen mit stateful Firewalls, NAT-Gateways, Load Balancern oder Anycast-Designs, weil diese Systeme Verbindungen über…

STP-Incident-Playbook: Root Cause, Mitigation und Prävention

Ein STP-Incident-Playbook ist für viele Netzwerke der Unterschied zwischen einem kontrollierten Eingriff und einem stundenlangen Dominoeffekt. Spanning Tree Protocol (STP) und seine Varianten (RSTP, MSTP) schützen Layer-2-Domänen vor Loops, können in Störungen aber selbst zum Verstärker werden: Root-Bridge-Wechsel, Topology-Change-Stürme, inkonsistente Portrollen oder falsch gesetzte Edge-Flags führen zu Paketverlust, Latenzspitzen und scheinbar „zufälligen“ Ausfällen in mehreren…

Falscher VRF Route Target: „Tenant Isolated“-Incident erkennen

Ein falscher VRF Route Target ist eine der häufigsten Ursachen für einen „Tenant Isolated“-Incident in Multi-Tenant-Netzen: Ein Mandant (Tenant) wirkt plötzlich isoliert, obwohl Links, BGP-Sessions und Underlay gesund erscheinen. Der Fehler sitzt dabei nicht auf Layer 1–3 im klassischen Sinn, sondern in der VPN-/VRF-Signalierung: Route Targets (RTs) steuern, welche VPN-Routen in eine VRF importiert und…

RCA-Template für Netzwerk-Incidents auf Basis des OSI-Modells

Ein RCA-Template für Netzwerk-Incidents auf Basis des OSI-Modells ist ein praktischer Standard, um Ursachenanalysen (Root Cause Analysis) schneller, konsistenter und für unterschiedliche Teams verständlich zu machen. Viele RCAs scheitern nicht daran, dass die Ursache unbekannt bleibt, sondern daran, dass der Bericht unstrukturiert ist: zu viel Chronik, zu wenig Belege, unklare Abhängigkeiten und keine saubere Trennung…

Fault Domain schnell bestimmen: Underlay vs. Overlay mit OSI

Die Frage „Fault Domain schnell bestimmen: Underlay vs. Overlay mit OSI“ entscheidet im Betrieb oft darüber, ob ein Incident in Minuten oder in Stunden gelöst wird. In modernen Rechenzentren und Cloud-Umgebungen liegen zwischen Anwendung und physischer Infrastruktur mehrere Abstraktionsschichten: VLANs, VRFs, Load Balancer, Tunnel (z. B. VXLAN), Service Mesh, DNS, TLS und Applikationsprotokolle. Wenn ein…