“Nichts ändert sich”: Troubleshooting bei intermittierenden Fehlern

Troubleshooting bei intermittierenden Fehlern ist die Disziplin, in der Netzwerkteams am häufigsten Zeit verlieren – nicht wegen fehlender Kompetenz, sondern wegen fehlender Sichtbarkeit. Der Satz „Nichts ändert sich“ taucht in jedem Incident irgendwann auf: keine neuen Deployments, keine Konfig-Änderungen, keine Interface-Downs, keine auffälligen Grafiken. Und trotzdem melden Nutzer sporadische Timeouts, kurze Audioaussetzer, „mal geht’s, mal…

Flapping Links: Root Cause zwischen Optics, LACP und Bugs

Flapping Links sind eine der teuersten Störungsklassen im Netzwerkbetrieb, weil sie selten „hart“ ausfallen, sondern in kurzen Intervallen hoch und runter gehen – mit maximaler Wirkung auf Routing, LACP-Bundles, STP, ECMP und damit auf Applikationslatenz und Verfügbarkeit. Genau deshalb ist die Root Cause Analysis bei Link Flaps oft schwieriger als bei einem klaren Down: Wenn…

High CPU auf Netzwerkgeräten: Control Plane Overload nachweisen

High CPU auf Netzwerkgeräten ist eines der tückischsten Fehlerbilder im Betrieb, weil es sich selten wie ein „klassischer“ Link-Ausfall anfühlt. Stattdessen sehen Sie Symptome, die überall und nirgendwo auftreten: BGP-Sessions flappen, OSPF-Adjazenzen werden instabil, SNMP/Telemetry hat Lücken, CLI reagiert zäh, einzelne Flows timeouten, ARP/ND-Auflösung wird langsam, und manchmal wirkt das Gerät plötzlich „wie eingefroren“. In…

Memory/TCAM Exhaustion: Symptome, Nachweise und Mitigation

Memory/TCAM Exhaustion ist eine der unangenehmsten Fehlerklassen in der Netzwerktechnik, weil sie selten als „harte“ Störung startet. Stattdessen beginnt es schleichend: Ein neues ACL-Template wird ausgerollt, ein zusätzlicher VRF kommt dazu, BGP nimmt mehr Prefixe an, ein Security-Team aktiviert neue Signaturen, oder ein Campus-Switch bekommt plötzlich sehr viele MAC-Adressen. Zunächst scheint alles stabil, doch unter…

Control Plane Policing Debugging: CoPP greift zu hart (oder gar nicht)

Control Plane Policing Debugging ist eine der wichtigsten, aber zugleich frustrierendsten Aufgaben im Betrieb moderner Router und Switches: CoPP (Control Plane Policing) soll die Control Plane schützen, damit Routing-Protokolle, ARP/ND, Management und Exception-Handling auch unter Stress zuverlässig funktionieren. In der Praxis passiert jedoch häufig das Gegenteil: CoPP greift zu hart, schneidet legitimen Traffic ab und…

uRPF Debugging: Anti-Spoofing ohne legitimen Traffic zu droppen

uRPF Debugging ist in modernen Netzwerken ein Balanceakt: Einerseits ist uRPF (Unicast Reverse Path Forwarding) ein äußerst wirksames Anti-Spoofing-Werkzeug, um Quelladressfälschung und Reflection-Angriffe zu reduzieren. Andererseits kann uRPF legitimen Traffic droppen, wenn Routing asymmetrisch ist, wenn ECMP im Spiel ist oder wenn Kunden- und Overlay-Designs nicht strikt „symmetrisch“ funktionieren. Das ist der Punkt, an dem…

IPv6 Troubleshooting: RA/ND, SLAAC, DHCPv6 und Prefix Filter

IPv6 Troubleshooting ist in vielen Umgebungen der Moment der Wahrheit: Auf dem Papier ist IPv6 „einfach nur eine größere Adresse“, in der Praxis hängen jedoch Adressvergabe, Default Gateway, Neighbor Discovery, Sicherheitsfilter und Routing viel enger zusammen als in klassischen IPv4-Designs. Typische Symptome klingen zunächst banal – Clients bekommen keine IPv6-Adresse, DNS funktioniert nur teilweise, einzelne…

Dual-Stack Probleme: Happy Eyeballs, DNS AAAA und Path Differences

Dual-Stack Probleme gehören zu den häufigsten Ursachen für „komische“ Connectivity-Fehler in modernen Netzen: Ein Dienst ist mal schnell, mal langsam, manche Nutzer können sich nicht anmelden, Downloads brechen ab, oder nur bestimmte Standorte melden Timeouts – während IPv4 und IPv6 einzeln betrachtet scheinbar funktionieren. Der Grund ist fast immer die Kombination aus drei Faktoren: dem…

MTU in IPv6: Fragmentation Header, PMTUD und Blackholes

MTU in IPv6 ist eine der häufigsten versteckten Fehlerquellen in modernen Netzwerken – gerade weil IPv6 viele „alte“ IPv4-Gewohnheiten nicht mehr erlaubt. Wenn die Path MTU nicht passt, entstehen Blackholes, die sich für Anwender wie Zufall anfühlen: kleine Requests funktionieren, große Uploads hängen; TLS-Handshakes brechen sporadisch ab; VPNs und Overlays verhalten sich inkonsistent; oder Dual-Stack-Clients…

Packet Capture an mehreren Punkten: “Follow the Packet” in der Praxis

Packet Capture an mehreren Punkten ist die schnellste Methode, um komplexe Netzwerkprobleme wirklich zu beweisen – statt sie nur zu vermuten. Einzelne Mitschnitte sind oft irreführend: Ein Client-Capture zeigt Retransmissions, aber Sie wissen nicht, ob der Verlust im LAN, im WAN oder am Server entsteht. Eine Firewall loggt „allow“, aber der Rückverkehr kommt nie an.…