Syslog Triage: High-Signal Events schnell erkennen

Syslog Triage ist eine der wirkungsvollsten Fähigkeiten im Netzwerkbetrieb: Wer in Sekunden erkennt, welche Meldungen „High Signal“ sind, verkürzt die Mean Time to Detect (MTTD) und damit die MTTR dramatisch. Gleichzeitig ist Syslog in vielen Umgebungen ein Lärmproblem: Tausende Events pro Minute, wechselnde Message-Formate, unklare Severity-Levels, fehlende Korrelation und Geräte, die bei jeder Link-Neuverhandlung ganze…

Time Sync Issues: NTP/PTP Drift als versteckte Fehlerquelle

Time Sync Issues gehören zu den am häufigsten übersehenen Ursachen für „mysteriöse“ Störungen in IT- und Computernetzwerken. Wenn NTP/PTP Drift unbemerkt wächst, wirkt das zunächst harmlos: Logs sehen nur „komisch“ aus, Metriken passen nicht zusammen, einzelne Requests scheinen „aus der Zeit zu fallen“. Doch in modernen verteilten Systemen ist Zeit ein fundamentales Koordinatensystem. Ohne verlässliche…

Observability Correlation: Logs + Metrics + Traces für Netzwerk-RCA

Observability Correlation – also die gezielte Korrelation von Logs, Metrics und Traces – ist heute eine der schnellsten Methoden, um Netzwerk-RCA (Root Cause Analysis) belastbar zu machen. In klassischen Netzwerkteams wurden Störungen häufig mit punktuellen Indikatoren bearbeitet: Ein Interface zeigt Errors, ein BGP-Neighbor flappt, ein Load Balancer liefert 502. Moderne Systeme sind jedoch verteilt, dynamisch…

“Nichts ändert sich”: Troubleshooting bei intermittierenden Fehlern

Troubleshooting bei intermittierenden Fehlern ist die Disziplin, in der Netzwerkteams am häufigsten Zeit verlieren – nicht wegen fehlender Kompetenz, sondern wegen fehlender Sichtbarkeit. Der Satz „Nichts ändert sich“ taucht in jedem Incident irgendwann auf: keine neuen Deployments, keine Konfig-Änderungen, keine Interface-Downs, keine auffälligen Grafiken. Und trotzdem melden Nutzer sporadische Timeouts, kurze Audioaussetzer, „mal geht’s, mal…

Flapping Links: Root Cause zwischen Optics, LACP und Bugs

Flapping Links sind eine der teuersten Störungsklassen im Netzwerkbetrieb, weil sie selten „hart“ ausfallen, sondern in kurzen Intervallen hoch und runter gehen – mit maximaler Wirkung auf Routing, LACP-Bundles, STP, ECMP und damit auf Applikationslatenz und Verfügbarkeit. Genau deshalb ist die Root Cause Analysis bei Link Flaps oft schwieriger als bei einem klaren Down: Wenn…

High CPU auf Netzwerkgeräten: Control Plane Overload nachweisen

High CPU auf Netzwerkgeräten ist eines der tückischsten Fehlerbilder im Betrieb, weil es sich selten wie ein „klassischer“ Link-Ausfall anfühlt. Stattdessen sehen Sie Symptome, die überall und nirgendwo auftreten: BGP-Sessions flappen, OSPF-Adjazenzen werden instabil, SNMP/Telemetry hat Lücken, CLI reagiert zäh, einzelne Flows timeouten, ARP/ND-Auflösung wird langsam, und manchmal wirkt das Gerät plötzlich „wie eingefroren“. In…

Memory/TCAM Exhaustion: Symptome, Nachweise und Mitigation

Memory/TCAM Exhaustion ist eine der unangenehmsten Fehlerklassen in der Netzwerktechnik, weil sie selten als „harte“ Störung startet. Stattdessen beginnt es schleichend: Ein neues ACL-Template wird ausgerollt, ein zusätzlicher VRF kommt dazu, BGP nimmt mehr Prefixe an, ein Security-Team aktiviert neue Signaturen, oder ein Campus-Switch bekommt plötzlich sehr viele MAC-Adressen. Zunächst scheint alles stabil, doch unter…

Control Plane Policing Debugging: CoPP greift zu hart (oder gar nicht)

Control Plane Policing Debugging ist eine der wichtigsten, aber zugleich frustrierendsten Aufgaben im Betrieb moderner Router und Switches: CoPP (Control Plane Policing) soll die Control Plane schützen, damit Routing-Protokolle, ARP/ND, Management und Exception-Handling auch unter Stress zuverlässig funktionieren. In der Praxis passiert jedoch häufig das Gegenteil: CoPP greift zu hart, schneidet legitimen Traffic ab und…

uRPF Debugging: Anti-Spoofing ohne legitimen Traffic zu droppen

uRPF Debugging ist in modernen Netzwerken ein Balanceakt: Einerseits ist uRPF (Unicast Reverse Path Forwarding) ein äußerst wirksames Anti-Spoofing-Werkzeug, um Quelladressfälschung und Reflection-Angriffe zu reduzieren. Andererseits kann uRPF legitimen Traffic droppen, wenn Routing asymmetrisch ist, wenn ECMP im Spiel ist oder wenn Kunden- und Overlay-Designs nicht strikt „symmetrisch“ funktionieren. Das ist der Punkt, an dem…

IPv6 Troubleshooting: RA/ND, SLAAC, DHCPv6 und Prefix Filter

IPv6 Troubleshooting ist in vielen Umgebungen der Moment der Wahrheit: Auf dem Papier ist IPv6 „einfach nur eine größere Adresse“, in der Praxis hängen jedoch Adressvergabe, Default Gateway, Neighbor Discovery, Sicherheitsfilter und Routing viel enger zusammen als in klassischen IPv4-Designs. Typische Symptome klingen zunächst banal – Clients bekommen keine IPv6-Adresse, DNS funktioniert nur teilweise, einzelne…