MLAG/VSX/vPC Split-Brain: Früherkennung und Response-Plan

Ein MLAG/VSX/vPC Split-Brain ist einer der kritischsten Failure Modes in modernen Rechenzentrums- und Campus-Netzen, weil er Redundanzmechanismen in ihr Gegenteil verkehren kann: Statt „zwei Geräte wie ein Switch“ zu verhalten, agieren beide Peers gleichzeitig eigenständig – oft mit widersprüchlichen Forwarding-Entscheidungen. Das führt nicht nur zu Paketverlust, sondern häufig zu MAC-Flapping, Blackholing, Broadcast-Stürmen oder sogar Layer-2-Loops,…

ARP-Storm & ARP-Spoofing: Security-Incident vs. operatives Problem unterscheiden

Ein ARP-Storm kann ein Netzwerk in Minuten handlungsunfähig machen – und zugleich ist ARP-Spoofing ein klassischer Angriffsvektor, um Datenverkehr umzuleiten oder mitzulesen. Für ein NOC oder On-Call-Team ist die entscheidende Frage daher nicht „ARP ist laut, was nun?“, sondern: Handelt es sich um ein Security-Incident (böswillige Manipulation) oder um ein operatives Problem (Fehlkonfiguration, Loop, Host-Fehlverhalten,…

DHCP Snooping & DAI: Validierungs-Checkliste nach Changes

DHCP Snooping & DAI gehören zu den wirksamsten Layer-2-Schutzmechanismen in Campus- und Datacenter-Access-Netzen, weil sie zwei der häufigsten Ursachen für „plötzliche“ Segment-Störungen adressieren: Rogue-DHCP und ARP-Manipulation. Gleichzeitig sind beide Features change-sensitiv. Nach Migrationen, VLAN-Anpassungen, Trunk-Änderungen, Switch-Replacements oder Access-Port-Umzügen kann eine kleine Abweichung – etwa ein fehlender „trusted“-Port, eine zu niedrige Rate-Limit-Einstellung oder eine inkonsistente VLAN-Aktivierung…

Layer 3: „Ping geht, App fällt aus“ – L3- oder L7-Problem eindeutig klären

„Ping geht, App fällt aus“ gehört zu den häufigsten und gleichzeitig irreführendsten Aussagen im On-Call- und NOC-Alltag. Ein erfolgreicher ICMP-Ping beweist nämlich nur sehr wenig: Er zeigt, dass zwischen zwei Endpunkten grundsätzlich IP-Konnektivität möglich ist und dass ICMP nicht blockiert wird. Er beweist jedoch nicht, dass TCP-Verbindungen stabil aufgebaut werden können, dass Path MTU stimmt,…

Routing-Blackhole: Identifikation mit Traceroute + Routing-Table-Check

Ein Routing-Blackhole gehört zu den frustrierendsten Fehlerbildern im Betrieb: Der Zielhost „existiert“, DNS stimmt, manchmal geht sogar ein Ping bis zu einem bestimmten Punkt – und trotzdem verschwinden Pakete irgendwo im Netz, ohne dass eine saubere Fehlermeldung zurückkommt. Genau deshalb sind zwei Werkzeuge in Kombination so wirkungsvoll: Traceroute zeigt Ihnen, wo ein Pfad sichtbar endet…

OSPF-Neighbor Down: Root-Cause-Matrix fürs NOC

Ein „OSPF-Neighbor Down“-Alarm ist im NOC ein Klassiker – und gleichzeitig ein Musterbeispiel dafür, wie schnell man Zeit verliert, wenn die Ursachen nicht strukturiert eingegrenzt werden. OSPF (Open Shortest Path First) ist robust, aber empfindlich gegenüber bestimmten Abweichungen: Eine minimale MTU-Differenz, ein geänderter Timer, ein neues ACL-Template, ein Interface-Reset oder ein physischer Link-Flap kann die…

BGP-Session-Drop: Hold Timer, Policy oder Transport?

Ein BGP-Session-Drop ist für NOC- und On-Call-Teams eines der teuersten Fehlerbilder, weil er selten „nur“ ein Routing-Problem ist. Wenn eine BGP-Session (eBGP oder iBGP) flappt, brechen Routen weg, Rekonvergenz startet, Traffic verschiebt sich, und je nach Topologie entstehen Blackholes, Hot-Potato-Effekte oder unerwartete Pfade. In der Praxis stellen sich nach einem Drop immer dieselben drei Fragen:…

Route Leak in Produktion: Frühe Signale und Mitigation-Schritte

Ein Route Leak in Produktion ist einer der wenigen Vorfälle, die gleichzeitig Netzstabilität, Sicherheit und Geschäftsprozesse betreffen: Plötzlich tauchen „zu viele“ Präfixe in BGP auf, unerwartete Routen werden bevorzugt, Traffic nimmt abwegige Pfade, und innerhalb von Minuten entstehen Latenzspitzen, Paketverlust oder vollständige Blackholes. Besonders tückisch ist, dass ein Route Leak nicht immer wie ein klassischer…

ECMP-Troubleshooting: Warum haben nur manche User Errors?

ECMP-Troubleshooting wird meist dann akut, wenn ein Incident „unfair“ wirkt: Nur manche User sehen Errors, nur bestimmte Sessions timeouten, oder Probleme treten scheinbar zufällig auf – obwohl Monitoring grün ist und ein einfacher Ping funktioniert. Genau dieses Muster ist typisch für Equal-Cost Multi-Path (ECMP): Traffic wird über mehrere gleichwertige Pfade verteilt, meist per Hashing über…

Layer-2-Triage: Broadcast Storm oder Loop? So findest du es sicher heraus

Layer-2-Triage: Broadcast Storm oder Loop? Diese Frage entscheidet in vielen Netzwerken über Minuten oder Stunden Ausfallzeit, weil beide Szenarien ähnliche Symptome erzeugen können: extrem hohe Auslastung auf Switchports, Paketverluste, steigende Latenzen, MAC-Table-Instabilität, CPU-Spikes auf Switches und plötzlich „flappende“ L2-Nachbarschaften. In der Hektik eines Incidents ist es verführerisch, sofort Ports zu shutten oder ganze Segmente zu…