Post-Change-Checkliste für L2/L3: Minimale Pflicht-Tests

Eine Post-Change-Checkliste für L2/L3 ist der schnellste Weg, um nach Netzwerkänderungen (Switching, Routing, Firewall-Uplinks, VLAN/VRF-Anpassungen, Port-Channels, MTU, Policies) die wichtigsten Risiken auszuschließen – ohne in ausufernde Testorgien zu verfallen. Gerade im Betrieb scheitern Changes selten daran, dass „alles kaputt“ ist, sondern daran, dass ein einzelner, kleiner Fehler unbemerkt bleibt: ein VLAN fehlt auf einem Trunk,…

LACP-Troubleshooting: Member Down, Misconfig oder Hashing-Issue?

LACP-Troubleshooting ist im Netzwerkbetrieb eine der wichtigsten Fähigkeiten, weil Link Aggregation (Port-Channel, LAG, Bonding) gleichzeitig Performance und Redundanz liefern soll – und bei Fehlern besonders tückische Symptome erzeugt. Wenn ein Member Down ist, wenn eine Misconfig vorliegt oder wenn ein Hashing-Issue einzelne Flows „kaputt“ wirken lässt, sieht das für Nutzer oft gleich aus: sporadischer Packet…

DHCP Snooping & DAI: L2-Hardening, das oft False Positives erzeugt

DHCP Snooping & DAI sind zwei der wirksamsten Mechanismen, um Layer-2-Netze gegen typische Angriffe und Fehlkonfigurationen abzusichern. Gleichzeitig gelten sie im Betrieb als „L2-Hardening, das oft False Positives erzeugt“, weil legitimer Traffic plötzlich geblockt wird: Clients bekommen keine IP-Adresse mehr, ARP funktioniert scheinbar zufällig, Drucker oder IoT-Geräte „verschwinden“, oder nach einem Umzug ins andere VLAN…

Root Cause „Broadcast Storm“: Loop vs. misbehaving Host unterscheiden

Ein „Broadcast Storm“ ist im Betrieb mehr als nur „viel Broadcast“. Er ist ein Zustand, in dem Broadcast-Frames (und oft auch Unknown-Unicast und Multicast) so stark ansteigen, dass Switches, Endgeräte und teilweise auch Router/Firewalls in die Knie gehen. Typische Auswirkungen sind: stark erhöhte Latenz, Packet Loss, Timeouts, flappende Links (durch Control-Plane-Überlast), instabile ARP-Tabellen und in…

OSPF Neighbor Down: Ursachen, Checkliste und Recovery-Schritte

Ein „OSPF Neighbor Down“ ist im Routing-Betrieb eines der wichtigsten Alarmsignale, weil es meist nicht nur eine einzelne Verbindung betrifft, sondern unmittelbar die Topologie-Sicht (LSDB), die Routenberechnung und damit den Traffic-Pfad verändert. Je nach Design führt ein OSPF Neighbor Down zu kurzfristigen Micro-Outages (Neuberechnung, Rekonvergenz) oder zu einem echten Produktionsincident, wenn Redundanz fehlt oder mehrere…

OSPF Flap: Root Cause finden (L1, L2 oder Timer?)

Ein „OSPF Flap“ ist im Betrieb eines IP-Netzes oft gefährlicher als ein einmaliger OSPF-Ausfall, weil er das Netz in einen Dauerzustand aus Rekonvergenz, SPF-Neuberechnung und wechselnden Traffic-Pfaden zwingt. Während ein „OSPF Neighbor Down“ meist einen klaren Trigger hat (Link down, Change, Fehler), ist ein Flap häufig ein Symptom für ein intermittierendes Problem: Ein Interface flapped…

BGP Session Down: Schneller Debug (Transport vs. Policy)

Ein „BGP Session Down“ gehört zu den Incident-Typen, bei denen Minuten zählen: Sobald die BGP-Nachbarschaft abreißt, verschwinden Routen, Traffic wird umgeleitet, und je nach Design kann ein kompletter Standort oder ein ganzer Internet-Edge „blind“ werden. In der Praxis ist das Problem jedoch nicht immer BGP selbst. Sehr häufig ist die Ursache im Transport (TCP/179 kommt…

BGP Flap: Kundenauswirkungen und Stabilisierung

Ein BGP Flap ist für Kunden häufig schlimmer als ein einzelner, klarer Ausfall. Während eine einmalige BGP-Session-Unterbrechung oft „nur“ eine kurze Rekonvergenz auslöst, erzeugt ein wiederholtes Up/Down („Flapping“) eine instabile Routing-Lage: Präfixe erscheinen und verschwinden, Pfade wechseln im Minuten- oder Sekundenrhythmus, und Anwendungen verhalten sich unvorhersehbar. Genau deshalb wird ein BGP Flap im NOC häufig…

OTDR fürs NOC: Wann Field Team/Vendor einschalten

OTDR fürs NOC ist ein Thema, das in vielen Organisationen erst dann ernsthaft diskutiert wird, wenn optische Links „komisch“ werden: steigende Fehler, sporadische Link-Flaps, abfallende Rx-Power oder Instabilität nach einem Patch. Ein Optical Time Domain Reflectometer (OTDR) kann in solchen Fällen sehr schnell klären, ob eine Glasfaserstrecke physisch intakt ist, wo sich Dämpfungsstellen befinden und…

Link Down troubleshooten: Port, Kabel, SFP oder Switch?

„Link Down troubleshooten“ gehört zu den häufigsten Aufgaben im Netzwerkbetrieb – und gleichzeitig zu den Fällen, in denen man am schnellsten Zeit verliert, wenn man ohne System vorgeht. Ein Link, der plötzlich „down“ ist, kann viele Ursachen haben: ein deaktivierter Port, ein defektes oder falsch gestecktes Kabel, ein inkompatibles oder sterbendes SFP-Modul, ein Switch-Port mit…