BGP Route Leaks erkennen: Prefix Filter, Max-Prefix und Hygiene Checks

BGP Route Leaks erkennen ist eine der wichtigsten Disziplinen im Betrieb von WAN- und Internet-Edge-Netzen, weil ein einziger Leak innerhalb von Sekunden massive Auswirkungen haben kann: unerwartete Umwege über teure Transits, Blackholing durch falsche Defaults, Überlastung von Firewalls/Edges, oder im schlimmsten Fall globale Erreichbarkeitsprobleme, wenn versehentlich fremde Präfixe weiterpropagiert werden. Das Tückische: Eine BGP-Session kann…

BGP Flapping: Root Cause zwischen Link, CPU und Policies

BGP Flapping ist eines der teuersten und nervigsten Fehlerbilder im Netzwerkbetrieb, weil es gleichzeitig die Control Plane belastet, Routing-Instabilität erzeugt und sich in Anwendungen wie ein „zufälliger“ Ausfall anfühlt: Verbindungen brechen ab, Latenz springt, Traffic nimmt Umwege, und Monitoring meldet wechselnde Erreichbarkeit. Anders als bei einem klaren Link-Down ist BGP Flapping oft ein Mix aus…

Route Reflection Debugging: Cluster IDs, Next-Hop und Loop Prevention

Route Reflection Debugging ist eine Schlüsselkompetenz in größeren iBGP-Umgebungen, weil Route Reflectors (RR) die Skalierung lösen, aber im Fehlerfall sehr „selektive“ und damit schwer erklärbare Symptome erzeugen: In Region A fehlt ein Präfix, in Region B ist es da; ein bestimmter Client sieht nur einen Teil der VPNv4-Routen; der Next Hop ist plötzlich unerreichbar; oder…

ECMP Troubleshooting: Asymmetrie, Hashing und Flow Pinning

ECMP Troubleshooting (Equal-Cost Multi-Path) gehört zu den anspruchsvollsten Aufgaben im Routing-Betrieb, weil die Symptome selten „global“ sind, sondern selektiv: Manche Flows sind schnell, andere langsam; ein Teil der Nutzer hat Timeouts, der Rest merkt nichts; oder ein Service funktioniert nur in eine Richtung. Genau das ist typisch für ECMP, denn ECMP verteilt Traffic nicht paketweise,…

PBR Troubleshooting: Reihenfolge, Match-Kriterien und Side Effects

PBR Troubleshooting (Policy-Based Routing) ist eine der anspruchsvollsten Aufgaben im Routing-Betrieb, weil PBR bewusst die „normale“ Pfadwahl außer Kraft setzt. Während klassisches Routing auf der Longest-Prefix-Match-Logik der Routing-Tabelle basiert, entscheidet PBR anhand von Regeln, Match-Kriterien und einer definierten Reihenfolge, wohin Traffic gehen soll – unabhängig davon, was das IGP oder BGP für „besten Pfad“ hält.…

QinQ Debugging: C-Tag/S-Tag Fehlerbilder und MTU-Fallen

QinQ Debugging ist eine Spezialdisziplin im VLAN/Trunk Troubleshooting – und genau deshalb in der Praxis oft ein Zeitfresser. Sobald ein Provider- oder Campus-Backbone doppelt getaggte Frames transportiert (C-Tag/S-Tag), entstehen Fehlerbilder, die auf den ersten Blick wie Routing-, Firewall- oder Applikationsprobleme wirken: einzelne Kunden-VLANs sind „tot“, ARP/MAC-Tabellen flappen, DHCP funktioniert nur sporadisch, oder große Transfers hängen…

Asymmetrisches Routing: Nachweise, Auswirkungen, Korrekturen

Asymmetrisches Routing beschreibt eine Situation, in der Hin- und Rückweg eines Datenflusses unterschiedliche Pfade durch das Netzwerk nehmen. Das ist in modernen Netzen mit ECMP, Multi-Homing, SD-WAN, mehreren Internet-Exits, VRFs, Anycast-Services und Policy-Based Routing keineswegs selten – und auch nicht automatisch „falsch“. Problematisch wird asymmetrisches Routing jedoch dann, wenn entlang des Pfades zustandsbehaftete Komponenten (Stateful…

STP Troubleshooting: Root Placement, TCN Storms und Loop-Forensik

STP Troubleshooting gehört zu den „High-Impact“-Disziplinen im LAN und im klassischen Campus-Netz, weil Spanning Tree Protocol (STP) im Fehlerfall nicht nur einzelne Hosts betrifft, sondern ganze VLANs oder Broadcast-Domains destabilisieren kann. Wenn Root Placement falsch ist, laufen Pfade unnötig lang, Uplinks werden überlastet und Latenzspitzen steigen. Wenn TCN Storms (Topology Change Notifications) auftreten, kippt die…

MPLS Troubleshooting: LDP, Label Switched Paths und PHP Issues

MPLS Troubleshooting ist in Provider-, Campus-Backbone- und WAN-Umgebungen eine der schnellsten Möglichkeiten, große Störungen sauber einzugrenzen, weil MPLS (Multiprotocol Label Switching) oft das „Transportgewebe“ für L3VPN, L2VPN, Traffic Engineering oder Segmentierung bildet. Wenn MPLS hakt, wirkt das nach außen häufig wie ein Routing-, Firewall- oder Applikationsproblem: einzelne Sites sind nicht erreichbar, nur bestimmte VPNs brechen…

Postmortems im Netzwerk: Von RCA zu nachhaltigen Fixes

Postmortems im Netzwerk sind der Moment, in dem aus einem Incident echte Betriebsexzellenz entsteht. Während der Störung zählt zuerst die Wiederherstellung – danach entscheidet die Nachbereitung, ob das Problem dauerhaft verschwindet oder in neuer Form zurückkehrt. Genau hier liegt der Unterschied zwischen „wir haben es behoben“ und „wir haben es verstanden“. Eine Root Cause Analysis…