vPC/MLAG Split-Brain: Symptome, Risiken und Response-Plan

Ein vPC/MLAG Split-Brain ist eine der kritischsten Fehlersituationen in redundanten Switching-Designs und kann innerhalb von Sekunden zu massiven Netzwerkstörungen führen. In einer vPC- (Virtual PortChannel) oder MLAG- (Multi-Chassis Link Aggregation) Architektur sollen zwei physische Switches wie ein logisches System wirken, damit Downstream-Geräte (z. B. Access-Switches, Server, Firewalls) aktiv/aktiv angebunden werden können. Beim Split-Brain verlieren die…

ARP Storm: Erkennen und dämpfen ohne Traffic zu kappen

Ein ARP Storm ist ein Zustand, in dem in einem Layer-2-Segment ungewöhnlich viele ARP-Anfragen und -Antworten (Address Resolution Protocol) zirkulieren und dadurch Bandbreite, Switch-CPU und Endgeräte unnötig belasten. Das Heimtückische: Ein ARP Storm wirkt oft zunächst wie „allgemein schlechtes Netzwerk“ – Anwendungen werden träge, VoIP leidet unter Jitter, Remote-Desktops ruckeln, und dennoch scheint „alles online“…

Interner Route Leak: Erkennung über Prefix Count und Policies

Ein interner Route Leak zählt zu den riskantesten Fehlerbildern in Enterprise- und Provider-Netzen, weil er oft „leise“ startet und sich dann innerhalb kurzer Zeit großflächig auswirkt. Gemeint ist damit, dass Routen innerhalb des eigenen Netzes unbeabsichtigt an falsche interne Peers weitergegeben werden – zum Beispiel wenn in BGP eine Route aus einer VRF in die…

Blackhole-Routing: FIB/RIB prüfen als Beweis

Blackhole-Routing bezeichnet eine Routing-Situation, in der Pakete zwar scheinbar korrekt geroutet werden, aber in der Praxis „verschwinden“: Der Traffic erreicht sein Ziel nicht, ohne dass ein eindeutiger Link-Down oder ein klarer Fehler im Monitoring sichtbar ist. Besonders tückisch wird es, wenn Monitoring nur Control-Plane-Indikatoren betrachtet (BGP/OSPF „up“, Interfaces „up“) und trotzdem Nutzer Timeouts melden. Das…

VLAN Drift: Warum Services „plötzlich weg“ sind (Audit-Methode)

VLAN Drift beschreibt ein leises, aber extrem wirkungsvolles Betriebsproblem: Services sind „plötzlich weg“, obwohl niemand bewusst etwas „kaputt“ geändert hat. In vielen Umgebungen zeigt sich das als scheinbar zufälliger Ausfall einzelner VLANs, als nicht reproduzierbare Störungen nach Wartungsfenstern oder als Tickets, die zwischen Teams pendeln („Routing? Firewall? DNS?“), obwohl der Fehler bereits auf Layer 2…

ECMP-Troubleshooting: Warum nur ein Teil des Traffics kaputt ist

ECMP-Troubleshooting ist in modernen Netzwerken ein Pflichtprogramm, weil Equal-Cost Multi-Path (ECMP) heute in Rechenzentren, Campus-Core-Designs, WAN-Backbones und Spine-Leaf-Fabrics als Standard gilt. Das Prinzip ist simpel: Wenn mehrere gleichwertige Pfade zum Ziel existieren, verteilt ein Router oder Switch den Traffic über mehrere Next-Hops, um Bandbreite besser zu nutzen und Redundanz zu erhöhen. In der Praxis führt…

STP-Loop-Incident: Detection, Mitigation und Prävention

Ein STP-Loop-Incident gehört zu den wenigen Netzwerkstörungen, die innerhalb von Sekunden aus einem lokalen Fehler ein flächiges Problem machen können: Broadcast-Stürme, MAC-Flapping, extrem hohe CPU-Last auf Switches, Packet Loss und im schlimmsten Fall ein kompletter Kollaps des Layer-2-Domains. „STP-Loop-Incident: Detection, Mitigation und Prävention“ bedeutet deshalb, dass Sie drei Dinge beherrschen müssen: erstens die schnelle Erkennung…

Asymmetrisches Routing + stateful Firewall: Klassischer Incident (Fix-Ansatz)

Asymmetrisches Routing in Kombination mit einer stateful Firewall ist ein klassischer Incident-Treiber in Unternehmensnetzwerken: Verbindungen bauen sich scheinbar sporadisch nicht auf, Applikationen laufen „manchmal“, VPNs oder API-Calls brechen ab, und das Monitoring zeigt trotzdem stabile Links und „grüne“ Routing-Nachbarschaften. Das Hauptkeyword asymmetrisches Routing + stateful Firewall beschreibt dabei den Kern des Problems: Der Hinweg eines…

RSTP/MSTP: Basis-Tuning für stabile Produktion

RSTP/MSTP Basis-Tuning ist in stabilen Produktionsnetzen kein „Nice-to-have“, sondern eine der effektivsten Maßnahmen gegen unnötige Ausfälle, flächige Broadcast-Stürme und schwer erklärbare Layer-2-Instabilität. Viele Teams aktivieren Rapid Spanning Tree (RSTP) oder Multiple Spanning Tree (MSTP) zwar standardmäßig, lassen aber wichtige Parameter auf Defaults, setzen Root-Bridge-Prioritäten nicht sauber oder behandeln Edge-Ports und Uplinks gleich. Das führt dazu,…

VRF Misroute: „Tenant vertauscht“ vermeiden

Eine VRF Misroute ist eines der unangenehmsten Fehlerbilder in segmentierten Netzwerken, weil sie nicht nur Verfügbarkeit betrifft, sondern schnell zur Sicherheits- und Compliance-Frage wird. Gemeint ist ein Routing- oder Forwarding-Fehler, bei dem Traffic in die falsche VRF gelangt – im schlimmsten Fall ist der „Tenant vertauscht“: Datenpakete eines Mandanten (Tenant A) werden über die Routing-Instanz…