Anycast-RP Debugging: MSDP vs. Anycast-Design Fehlerbilder

Anycast-RP Debugging ist eine Spezialdisziplin im Multicast-Betrieb, weil Anycast-RP auf den ersten Blick „einfach“ wirkt (gleiche RP-IP auf mehreren Routern), in der Praxis aber zwei Welten zusammenbringt: PIM Sparse Mode (PIM-SM) mit seinem Rendezvous-Point-Mechanismus und ein Anycast-Design, das die RP-Funktion auf mehrere Knoten verteilt. Genau hier entstehen typische Fehlerbilder, die ohne saubere Methodik schwer zu…

SPAN/ERSPAN richtig einsetzen: Mirror-Design ohne Paketverlust

SPAN/ERSPAN richtig einsetzen ist eine der wichtigsten Fähigkeiten für Netzwerk- und Security-Teams, weil Mirror-Traffic oft die letzte verlässliche Quelle für Beweise ist: Was ist wirklich über die Leitung gegangen, welche Pakete fehlen, wer hat ein RST gesendet, und wie sieht der Traffic vor oder nach einer Middlebox aus? Gleichzeitig sind SPAN (Switched Port Analyzer) und…

QoS Troubleshooting: Warum Policies nicht matchen und Drops entstehen

QoS Troubleshooting ist im Netzwerkbetrieb eine der häufigsten Ursachen für „schwer erklärbare“ Performance-Probleme: Voice klingt abgehackt, Videokonferenzen frieren ein, Applikationen wirken träge, obwohl die Bandbreite laut Monitoring noch „frei“ ist. Der Kernfehler ist dabei selten „QoS ist schlecht“, sondern fast immer einer von zwei Punkten: Die QoS Policies matchen nicht das, was sie matchen sollen…

QoS für Voice/Video debuggen: DSCP Trust, Queues, Policer

QoS für Voice/Video debuggen ist eine der effektivsten Maßnahmen, um aus „die Calls sind schlecht“ innerhalb kurzer Zeit eine belastbare technische Ursache zu machen. Echtzeitverkehr reagiert empfindlich auf Jitter, Paketverlust und Queueing-Delay – und genau diese Effekte entstehen oft nicht durch zu wenig Bandbreite, sondern durch falsches Marking, fehlendes DSCP Trust, ungeeignete Queue-Parameter oder Policer,…

BGP Session Troubleshooting: TCP, Auth, TTL, Policies und Limits

BGP Session Troubleshooting gehört zu den wichtigsten Fähigkeiten im Betrieb von WAN-, Provider- und Cloud-Hybrid-Netzen, weil ein einziger fehlerhafter BGP-Peer ganze Präfixgruppen „verschwinden“ lassen oder ungewollt über einen teuren/instabilen Pfad schicken kann. Gleichzeitig ist BGP als Protokoll sehr „ehrlich“: Wenn eine Session nicht hochkommt oder flappt, gibt es fast immer einen konkreten Grund – TCP/179…

BGP Route Leaks erkennen: Prefix Filter, Max-Prefix und Hygiene Checks

BGP Route Leaks erkennen ist eine der wichtigsten Disziplinen im Betrieb von WAN- und Internet-Edge-Netzen, weil ein einziger Leak innerhalb von Sekunden massive Auswirkungen haben kann: unerwartete Umwege über teure Transits, Blackholing durch falsche Defaults, Überlastung von Firewalls/Edges, oder im schlimmsten Fall globale Erreichbarkeitsprobleme, wenn versehentlich fremde Präfixe weiterpropagiert werden. Das Tückische: Eine BGP-Session kann…

BGP Flapping: Root Cause zwischen Link, CPU und Policies

BGP Flapping ist eines der teuersten und nervigsten Fehlerbilder im Netzwerkbetrieb, weil es gleichzeitig die Control Plane belastet, Routing-Instabilität erzeugt und sich in Anwendungen wie ein „zufälliger“ Ausfall anfühlt: Verbindungen brechen ab, Latenz springt, Traffic nimmt Umwege, und Monitoring meldet wechselnde Erreichbarkeit. Anders als bei einem klaren Link-Down ist BGP Flapping oft ein Mix aus…

Route Reflection Debugging: Cluster IDs, Next-Hop und Loop Prevention

Route Reflection Debugging ist eine Schlüsselkompetenz in größeren iBGP-Umgebungen, weil Route Reflectors (RR) die Skalierung lösen, aber im Fehlerfall sehr „selektive“ und damit schwer erklärbare Symptome erzeugen: In Region A fehlt ein Präfix, in Region B ist es da; ein bestimmter Client sieht nur einen Teil der VPNv4-Routen; der Next Hop ist plötzlich unerreichbar; oder…

ECMP Troubleshooting: Asymmetrie, Hashing und Flow Pinning

ECMP Troubleshooting (Equal-Cost Multi-Path) gehört zu den anspruchsvollsten Aufgaben im Routing-Betrieb, weil die Symptome selten „global“ sind, sondern selektiv: Manche Flows sind schnell, andere langsam; ein Teil der Nutzer hat Timeouts, der Rest merkt nichts; oder ein Service funktioniert nur in eine Richtung. Genau das ist typisch für ECMP, denn ECMP verteilt Traffic nicht paketweise,…

PBR Troubleshooting: Reihenfolge, Match-Kriterien und Side Effects

PBR Troubleshooting (Policy-Based Routing) ist eine der anspruchsvollsten Aufgaben im Routing-Betrieb, weil PBR bewusst die „normale“ Pfadwahl außer Kraft setzt. Während klassisches Routing auf der Longest-Prefix-Match-Logik der Routing-Tabelle basiert, entscheidet PBR anhand von Regeln, Match-Kriterien und einer definierten Reihenfolge, wohin Traffic gehen soll – unabhängig davon, was das IGP oder BGP für „besten Pfad“ hält.…