Stateful Firewall & Sessions: Warum asymmetrisches Routing zur Katastrophe wird

Eine stateful Firewall ist in Enterprise-Netzen der Normalfall: Sie erlaubt oder blockiert Verbindungen nicht nur anhand statischer Regeln, sondern verfolgt aktiv den Zustand einer Session in einer Zustands- oder Conntrack-Tabelle. Das funktioniert hervorragend – bis asymmetrisches Routing ins Spiel kommt. Dann passiert oft das Unvermeidliche: Der Hinweg eines Datenstroms läuft durch Firewall A, der Rückweg…

MAC-Flapping: Häufige Ursachen und wie du es belegst

MAC-Flapping gehört zu den häufigsten und zugleich am meisten missverstandenen Layer-2-Symptomen in produktiven Netzwerken. Im Ticket steht dann oft nur „MAC flapping detected“ oder „MAC move“, und innerhalb weniger Minuten eskaliert die Lage: Trunks sind überlastet, Unknown-Unicast-Flooding steigt, einzelne VLANs wirken „instabil“, und Anwendungen melden Timeouts oder sporadische Verbindungsabbrüche. Dabei ist MAC-Flapping nicht automatisch ein…

IPv6-Incident-Playbook: ND, RA und Dual-Stack-Edge-Cases

Ein sauberes IPv6-Incident-Playbook ist heute Pflicht, weil IPv6-Ausfälle selten „hart“ wirken: Oft ist nur ein Teil der Clients betroffen, nur bestimmte Subnetze verlieren Konnektivität, oder Anwendungen „flappen“ zwischen IPv4 und IPv6. Besonders häufig liegen die Ursachen nicht im Routing, sondern in den Mechanismen am Rand des Netzes: Neighbor Discovery (ND), Router Advertisements (RA) und typische…

VLAN-Mismatch: Symptome, Auswirkungen und schneller Check

Ein VLAN-Mismatch ist eine der häufigsten Ursachen für „komische“ Layer-2-Probleme, die in Tickets zunächst wie Routing-, Firewall- oder Applikationsfehler wirken. Dabei ist das Grundprinzip simpel: Zwei Seiten eines Links sind sich nicht einig, welche VLANs getaggt oder untagged übertragen werden dürfen – oder wie der Native VLAN/PVID gesetzt ist. Das Ergebnis reicht von „ein einzelnes…

Trunk Allowed VLAN Drift: Präventives Audit fürs NOC

Trunk Allowed VLAN Drift ist einer der häufigsten Gründe für „unerklärliche“ Teil-Ausfälle in Layer-2-Umgebungen: Ein einzelnes VLAN funktioniert plötzlich nicht mehr über einen bestimmten Pfad, während andere VLANs auf demselben Trunk weiterhin stabil wirken. In der Praxis entsteht diese Drift selten durch ein großes, bewusstes Redesign, sondern durch kleine Änderungen im Alltag: ein temporär erlaubtes…

LACP-Troubleshooting: Misconfig, unidirektional oder Hashing-Problem?

LACP-Troubleshooting ist in der Produktion oft der schnellste Weg, um „mysteriöse“ Paketverluste, asymmetrische Pfade oder unerklärliche Bandbreitenengpässe zu erklären. Link Aggregation wirkt auf den ersten Blick simpel: Mehrere physische Links werden zu einem logischen Bündel (LAG/Port-Channel) zusammengefasst. In der Praxis entstehen Störungen jedoch in drei sehr unterschiedlichen Klassen, die sich im Incident leicht verwechseln lassen:…

MLAG/VSX/vPC Split-Brain: Früherkennung und Response-Plan

Ein MLAG/VSX/vPC Split-Brain ist einer der kritischsten Failure Modes in modernen Rechenzentrums- und Campus-Netzen, weil er Redundanzmechanismen in ihr Gegenteil verkehren kann: Statt „zwei Geräte wie ein Switch“ zu verhalten, agieren beide Peers gleichzeitig eigenständig – oft mit widersprüchlichen Forwarding-Entscheidungen. Das führt nicht nur zu Paketverlust, sondern häufig zu MAC-Flapping, Blackholing, Broadcast-Stürmen oder sogar Layer-2-Loops,…

ARP-Storm & ARP-Spoofing: Security-Incident vs. operatives Problem unterscheiden

Ein ARP-Storm kann ein Netzwerk in Minuten handlungsunfähig machen – und zugleich ist ARP-Spoofing ein klassischer Angriffsvektor, um Datenverkehr umzuleiten oder mitzulesen. Für ein NOC oder On-Call-Team ist die entscheidende Frage daher nicht „ARP ist laut, was nun?“, sondern: Handelt es sich um ein Security-Incident (böswillige Manipulation) oder um ein operatives Problem (Fehlkonfiguration, Loop, Host-Fehlverhalten,…

DHCP Snooping & DAI: Validierungs-Checkliste nach Changes

DHCP Snooping & DAI gehören zu den wirksamsten Layer-2-Schutzmechanismen in Campus- und Datacenter-Access-Netzen, weil sie zwei der häufigsten Ursachen für „plötzliche“ Segment-Störungen adressieren: Rogue-DHCP und ARP-Manipulation. Gleichzeitig sind beide Features change-sensitiv. Nach Migrationen, VLAN-Anpassungen, Trunk-Änderungen, Switch-Replacements oder Access-Port-Umzügen kann eine kleine Abweichung – etwa ein fehlender „trusted“-Port, eine zu niedrige Rate-Limit-Einstellung oder eine inkonsistente VLAN-Aktivierung…

Layer 3: „Ping geht, App fällt aus“ – L3- oder L7-Problem eindeutig klären

„Ping geht, App fällt aus“ gehört zu den häufigsten und gleichzeitig irreführendsten Aussagen im On-Call- und NOC-Alltag. Ein erfolgreicher ICMP-Ping beweist nämlich nur sehr wenig: Er zeigt, dass zwischen zwei Endpunkten grundsätzlich IP-Konnektivität möglich ist und dass ICMP nicht blockiert wird. Er beweist jedoch nicht, dass TCP-Verbindungen stabil aufgebaut werden können, dass Path MTU stimmt,…