Routing-Blackhole: Identifikation mit Traceroute + Routing-Table-Check

Ein Routing-Blackhole gehört zu den frustrierendsten Fehlerbildern im Betrieb: Der Zielhost „existiert“, DNS stimmt, manchmal geht sogar ein Ping bis zu einem bestimmten Punkt – und trotzdem verschwinden Pakete irgendwo im Netz, ohne dass eine saubere Fehlermeldung zurückkommt. Genau deshalb sind zwei Werkzeuge in Kombination so wirkungsvoll: Traceroute zeigt Ihnen, wo ein Pfad sichtbar endet…

OSPF-Neighbor Down: Root-Cause-Matrix fürs NOC

Ein „OSPF-Neighbor Down“-Alarm ist im NOC ein Klassiker – und gleichzeitig ein Musterbeispiel dafür, wie schnell man Zeit verliert, wenn die Ursachen nicht strukturiert eingegrenzt werden. OSPF (Open Shortest Path First) ist robust, aber empfindlich gegenüber bestimmten Abweichungen: Eine minimale MTU-Differenz, ein geänderter Timer, ein neues ACL-Template, ein Interface-Reset oder ein physischer Link-Flap kann die…

BGP-Session-Drop: Hold Timer, Policy oder Transport?

Ein BGP-Session-Drop ist für NOC- und On-Call-Teams eines der teuersten Fehlerbilder, weil er selten „nur“ ein Routing-Problem ist. Wenn eine BGP-Session (eBGP oder iBGP) flappt, brechen Routen weg, Rekonvergenz startet, Traffic verschiebt sich, und je nach Topologie entstehen Blackholes, Hot-Potato-Effekte oder unerwartete Pfade. In der Praxis stellen sich nach einem Drop immer dieselben drei Fragen:…

Route Leak in Produktion: Frühe Signale und Mitigation-Schritte

Ein Route Leak in Produktion ist einer der wenigen Vorfälle, die gleichzeitig Netzstabilität, Sicherheit und Geschäftsprozesse betreffen: Plötzlich tauchen „zu viele“ Präfixe in BGP auf, unerwartete Routen werden bevorzugt, Traffic nimmt abwegige Pfade, und innerhalb von Minuten entstehen Latenzspitzen, Paketverlust oder vollständige Blackholes. Besonders tückisch ist, dass ein Route Leak nicht immer wie ein klassischer…

ECMP-Troubleshooting: Warum haben nur manche User Errors?

ECMP-Troubleshooting wird meist dann akut, wenn ein Incident „unfair“ wirkt: Nur manche User sehen Errors, nur bestimmte Sessions timeouten, oder Probleme treten scheinbar zufällig auf – obwohl Monitoring grün ist und ein einfacher Ping funktioniert. Genau dieses Muster ist typisch für Equal-Cost Multi-Path (ECMP): Traffic wird über mehrere gleichwertige Pfade verteilt, meist per Hashing über…

Layer-2-Triage: Broadcast Storm oder Loop? So findest du es sicher heraus

Layer-2-Triage: Broadcast Storm oder Loop? Diese Frage entscheidet in vielen Netzwerken über Minuten oder Stunden Ausfallzeit, weil beide Szenarien ähnliche Symptome erzeugen können: extrem hohe Auslastung auf Switchports, Paketverluste, steigende Latenzen, MAC-Table-Instabilität, CPU-Spikes auf Switches und plötzlich „flappende“ L2-Nachbarschaften. In der Hektik eines Incidents ist es verführerisch, sofort Ports zu shutten oder ganze Segmente zu…

Asymmetrisches Routing: Auswirkungen auf Firewalls und schnelle Diagnose

Asymmetrisches Routing ist einer der häufigsten Gründe dafür, dass Netzprobleme „unlogisch“ wirken: Ping geht, aber TCP-Verbindungen brechen ab; manche Nutzer können sich anmelden, andere bekommen Timeouts; und aus Sicht einzelner Komponenten sieht alles gesund aus. Besonders kritisch wird asymmetrisches Routing in Umgebungen mit stateful Firewalls, NAT-Gateways, Load Balancern oder Anycast-Designs, weil diese Systeme Verbindungen über…

STP-Incident-Playbook: Root Cause, Mitigation und Prävention

Ein STP-Incident-Playbook ist für viele Netzwerke der Unterschied zwischen einem kontrollierten Eingriff und einem stundenlangen Dominoeffekt. Spanning Tree Protocol (STP) und seine Varianten (RSTP, MSTP) schützen Layer-2-Domänen vor Loops, können in Störungen aber selbst zum Verstärker werden: Root-Bridge-Wechsel, Topology-Change-Stürme, inkonsistente Portrollen oder falsch gesetzte Edge-Flags führen zu Paketverlust, Latenzspitzen und scheinbar „zufälligen“ Ausfällen in mehreren…

Falscher VRF Route Target: „Tenant Isolated“-Incident erkennen

Ein falscher VRF Route Target ist eine der häufigsten Ursachen für einen „Tenant Isolated“-Incident in Multi-Tenant-Netzen: Ein Mandant (Tenant) wirkt plötzlich isoliert, obwohl Links, BGP-Sessions und Underlay gesund erscheinen. Der Fehler sitzt dabei nicht auf Layer 1–3 im klassischen Sinn, sondern in der VPN-/VRF-Signalierung: Route Targets (RTs) steuern, welche VPN-Routen in eine VRF importiert und…

RSTP/MSTP in Produktion: Tuning und Failure Modes, die du kennen musst

RSTP/MSTP in Produktion wirkt in vielen Umgebungen wie „einfach STP, nur schneller“. Genau diese Annahme ist eine der häufigsten Ursachen für wiederkehrende Layer-2-Incidents: Ports gehen unerwartet in Discarding, Uplinks werden blockiert, die Root Bridge driftet, oder Topology-Changes erzeugen kurzzeitige Aussetzer, die in Monitoring und Applikationslogs wie „random packet loss“ aussehen. In der Praxis ist RSTP…