VLAN-Mismatch: Symptome, Auswirkungen und schneller Check

Ein VLAN-Mismatch ist eine der häufigsten Ursachen für „komische“ Layer-2-Probleme, die in Tickets zunächst wie Routing-, Firewall- oder Applikationsfehler wirken. Dabei ist das Grundprinzip simpel: Zwei Seiten eines Links sind sich nicht einig, welche VLANs getaggt oder untagged übertragen werden dürfen – oder wie der Native VLAN/PVID gesetzt ist. Das Ergebnis reicht von „ein einzelnes…

Trunk Allowed VLAN Drift: Präventives Audit fürs NOC

Trunk Allowed VLAN Drift ist einer der häufigsten Gründe für „unerklärliche“ Teil-Ausfälle in Layer-2-Umgebungen: Ein einzelnes VLAN funktioniert plötzlich nicht mehr über einen bestimmten Pfad, während andere VLANs auf demselben Trunk weiterhin stabil wirken. In der Praxis entsteht diese Drift selten durch ein großes, bewusstes Redesign, sondern durch kleine Änderungen im Alltag: ein temporär erlaubtes…

LACP-Troubleshooting: Misconfig, unidirektional oder Hashing-Problem?

LACP-Troubleshooting ist in der Produktion oft der schnellste Weg, um „mysteriöse“ Paketverluste, asymmetrische Pfade oder unerklärliche Bandbreitenengpässe zu erklären. Link Aggregation wirkt auf den ersten Blick simpel: Mehrere physische Links werden zu einem logischen Bündel (LAG/Port-Channel) zusammengefasst. In der Praxis entstehen Störungen jedoch in drei sehr unterschiedlichen Klassen, die sich im Incident leicht verwechseln lassen:…

MLAG/VSX/vPC Split-Brain: Früherkennung und Response-Plan

Ein MLAG/VSX/vPC Split-Brain ist einer der kritischsten Failure Modes in modernen Rechenzentrums- und Campus-Netzen, weil er Redundanzmechanismen in ihr Gegenteil verkehren kann: Statt „zwei Geräte wie ein Switch“ zu verhalten, agieren beide Peers gleichzeitig eigenständig – oft mit widersprüchlichen Forwarding-Entscheidungen. Das führt nicht nur zu Paketverlust, sondern häufig zu MAC-Flapping, Blackholing, Broadcast-Stürmen oder sogar Layer-2-Loops,…

ARP-Storm & ARP-Spoofing: Security-Incident vs. operatives Problem unterscheiden

Ein ARP-Storm kann ein Netzwerk in Minuten handlungsunfähig machen – und zugleich ist ARP-Spoofing ein klassischer Angriffsvektor, um Datenverkehr umzuleiten oder mitzulesen. Für ein NOC oder On-Call-Team ist die entscheidende Frage daher nicht „ARP ist laut, was nun?“, sondern: Handelt es sich um ein Security-Incident (böswillige Manipulation) oder um ein operatives Problem (Fehlkonfiguration, Loop, Host-Fehlverhalten,…

DHCP Snooping & DAI: Validierungs-Checkliste nach Changes

DHCP Snooping & DAI gehören zu den wirksamsten Layer-2-Schutzmechanismen in Campus- und Datacenter-Access-Netzen, weil sie zwei der häufigsten Ursachen für „plötzliche“ Segment-Störungen adressieren: Rogue-DHCP und ARP-Manipulation. Gleichzeitig sind beide Features change-sensitiv. Nach Migrationen, VLAN-Anpassungen, Trunk-Änderungen, Switch-Replacements oder Access-Port-Umzügen kann eine kleine Abweichung – etwa ein fehlender „trusted“-Port, eine zu niedrige Rate-Limit-Einstellung oder eine inkonsistente VLAN-Aktivierung…

Layer 3: „Ping geht, App fällt aus“ – L3- oder L7-Problem eindeutig klären

„Ping geht, App fällt aus“ gehört zu den häufigsten und gleichzeitig irreführendsten Aussagen im On-Call- und NOC-Alltag. Ein erfolgreicher ICMP-Ping beweist nämlich nur sehr wenig: Er zeigt, dass zwischen zwei Endpunkten grundsätzlich IP-Konnektivität möglich ist und dass ICMP nicht blockiert wird. Er beweist jedoch nicht, dass TCP-Verbindungen stabil aufgebaut werden können, dass Path MTU stimmt,…

Routing-Blackhole: Identifikation mit Traceroute + Routing-Table-Check

Ein Routing-Blackhole gehört zu den frustrierendsten Fehlerbildern im Betrieb: Der Zielhost „existiert“, DNS stimmt, manchmal geht sogar ein Ping bis zu einem bestimmten Punkt – und trotzdem verschwinden Pakete irgendwo im Netz, ohne dass eine saubere Fehlermeldung zurückkommt. Genau deshalb sind zwei Werkzeuge in Kombination so wirkungsvoll: Traceroute zeigt Ihnen, wo ein Pfad sichtbar endet…

OSPF-Neighbor Down: Root-Cause-Matrix fürs NOC

Ein „OSPF-Neighbor Down“-Alarm ist im NOC ein Klassiker – und gleichzeitig ein Musterbeispiel dafür, wie schnell man Zeit verliert, wenn die Ursachen nicht strukturiert eingegrenzt werden. OSPF (Open Shortest Path First) ist robust, aber empfindlich gegenüber bestimmten Abweichungen: Eine minimale MTU-Differenz, ein geänderter Timer, ein neues ACL-Template, ein Interface-Reset oder ein physischer Link-Flap kann die…

BGP-Session-Drop: Hold Timer, Policy oder Transport?

Ein BGP-Session-Drop ist für NOC- und On-Call-Teams eines der teuersten Fehlerbilder, weil er selten „nur“ ein Routing-Problem ist. Wenn eine BGP-Session (eBGP oder iBGP) flappt, brechen Routen weg, Rekonvergenz startet, Traffic verschiebt sich, und je nach Topologie entstehen Blackholes, Hot-Potato-Effekte oder unerwartete Pfade. In der Praxis stellen sich nach einem Drop immer dieselben drei Fragen:…