RSTP/MSTP: Basis-Tuning für stabile Produktion

RSTP/MSTP Basis-Tuning ist in stabilen Produktionsnetzen kein „Nice-to-have“, sondern eine der effektivsten Maßnahmen gegen unnötige Ausfälle, flächige Broadcast-Stürme und schwer erklärbare Layer-2-Instabilität. Viele Teams aktivieren Rapid Spanning Tree (RSTP) oder Multiple Spanning Tree (MSTP) zwar standardmäßig, lassen aber wichtige Parameter auf Defaults, setzen Root-Bridge-Prioritäten nicht sauber oder behandeln Edge-Ports und Uplinks gleich. Das führt dazu,…

VRF Misroute: „Tenant vertauscht“ vermeiden

Eine VRF Misroute ist eines der unangenehmsten Fehlerbilder in segmentierten Netzwerken, weil sie nicht nur Verfügbarkeit betrifft, sondern schnell zur Sicherheits- und Compliance-Frage wird. Gemeint ist ein Routing- oder Forwarding-Fehler, bei dem Traffic in die falsche VRF gelangt – im schlimmsten Fall ist der „Tenant vertauscht“: Datenpakete eines Mandanten (Tenant A) werden über die Routing-Instanz…

MAC-Flapping: Häufige Ursachen und schnelle Isolation

MAC-Flapping ist eines der eindeutigsten Warnsignale im Layer-2-Betrieb: Eine MAC-Adresse wird in kurzer Zeit abwechselnd auf unterschiedlichen Switchports gelernt („MAC moves“), oft im selben VLAN. Das klingt zunächst nach einem kleinen „Learning-Problem“, kann aber in Produktion sehr schnell große Auswirkungen haben: Traffic wird falsch weitergeleitet, Pakete verschwinden, ARP-Resolution wirkt instabil, VoIP-Calls brechen ab, Server-Verbindungen werden…

Post-Change-Checkliste für L2/L3: Minimale Pflicht-Tests

Eine Post-Change-Checkliste für L2/L3 ist der schnellste Weg, um nach Netzwerkänderungen (Switching, Routing, Firewall-Uplinks, VLAN/VRF-Anpassungen, Port-Channels, MTU, Policies) die wichtigsten Risiken auszuschließen – ohne in ausufernde Testorgien zu verfallen. Gerade im Betrieb scheitern Changes selten daran, dass „alles kaputt“ ist, sondern daran, dass ein einzelner, kleiner Fehler unbemerkt bleibt: ein VLAN fehlt auf einem Trunk,…

LACP-Troubleshooting: Member Down, Misconfig oder Hashing-Issue?

LACP-Troubleshooting ist im Netzwerkbetrieb eine der wichtigsten Fähigkeiten, weil Link Aggregation (Port-Channel, LAG, Bonding) gleichzeitig Performance und Redundanz liefern soll – und bei Fehlern besonders tückische Symptome erzeugt. Wenn ein Member Down ist, wenn eine Misconfig vorliegt oder wenn ein Hashing-Issue einzelne Flows „kaputt“ wirken lässt, sieht das für Nutzer oft gleich aus: sporadischer Packet…

DHCP Snooping & DAI: L2-Hardening, das oft False Positives erzeugt

DHCP Snooping & DAI sind zwei der wirksamsten Mechanismen, um Layer-2-Netze gegen typische Angriffe und Fehlkonfigurationen abzusichern. Gleichzeitig gelten sie im Betrieb als „L2-Hardening, das oft False Positives erzeugt“, weil legitimer Traffic plötzlich geblockt wird: Clients bekommen keine IP-Adresse mehr, ARP funktioniert scheinbar zufällig, Drucker oder IoT-Geräte „verschwinden“, oder nach einem Umzug ins andere VLAN…

Root Cause „Broadcast Storm“: Loop vs. misbehaving Host unterscheiden

Ein „Broadcast Storm“ ist im Betrieb mehr als nur „viel Broadcast“. Er ist ein Zustand, in dem Broadcast-Frames (und oft auch Unknown-Unicast und Multicast) so stark ansteigen, dass Switches, Endgeräte und teilweise auch Router/Firewalls in die Knie gehen. Typische Auswirkungen sind: stark erhöhte Latenz, Packet Loss, Timeouts, flappende Links (durch Control-Plane-Überlast), instabile ARP-Tabellen und in…

OSPF Neighbor Down: Ursachen, Checkliste und Recovery-Schritte

Ein „OSPF Neighbor Down“ ist im Routing-Betrieb eines der wichtigsten Alarmsignale, weil es meist nicht nur eine einzelne Verbindung betrifft, sondern unmittelbar die Topologie-Sicht (LSDB), die Routenberechnung und damit den Traffic-Pfad verändert. Je nach Design führt ein OSPF Neighbor Down zu kurzfristigen Micro-Outages (Neuberechnung, Rekonvergenz) oder zu einem echten Produktionsincident, wenn Redundanz fehlt oder mehrere…

OSPF Flap: Root Cause finden (L1, L2 oder Timer?)

Ein „OSPF Flap“ ist im Betrieb eines IP-Netzes oft gefährlicher als ein einmaliger OSPF-Ausfall, weil er das Netz in einen Dauerzustand aus Rekonvergenz, SPF-Neuberechnung und wechselnden Traffic-Pfaden zwingt. Während ein „OSPF Neighbor Down“ meist einen klaren Trigger hat (Link down, Change, Fehler), ist ein Flap häufig ein Symptom für ein intermittierendes Problem: Ein Interface flapped…

BGP Session Down: Schneller Debug (Transport vs. Policy)

Ein „BGP Session Down“ gehört zu den Incident-Typen, bei denen Minuten zählen: Sobald die BGP-Nachbarschaft abreißt, verschwinden Routen, Traffic wird umgeleitet, und je nach Design kann ein kompletter Standort oder ein ganzer Internet-Edge „blind“ werden. In der Praxis ist das Problem jedoch nicht immer BGP selbst. Sehr häufig ist die Ursache im Transport (TCP/179 kommt…