Route Leak in Produktion: Frühe Signale und Mitigation-Schritte

Ein Route Leak in Produktion ist einer der wenigen Vorfälle, die gleichzeitig Netzstabilität, Sicherheit und Geschäftsprozesse betreffen: Plötzlich tauchen „zu viele“ Präfixe in BGP auf, unerwartete Routen werden bevorzugt, Traffic nimmt abwegige Pfade, und innerhalb von Minuten entstehen Latenzspitzen, Paketverlust oder vollständige Blackholes. Besonders tückisch ist, dass ein Route Leak nicht immer wie ein klassischer…

ECMP-Troubleshooting: Warum haben nur manche User Errors?

ECMP-Troubleshooting wird meist dann akut, wenn ein Incident „unfair“ wirkt: Nur manche User sehen Errors, nur bestimmte Sessions timeouten, oder Probleme treten scheinbar zufällig auf – obwohl Monitoring grün ist und ein einfacher Ping funktioniert. Genau dieses Muster ist typisch für Equal-Cost Multi-Path (ECMP): Traffic wird über mehrere gleichwertige Pfade verteilt, meist per Hashing über…

Layer-2-Triage: Broadcast Storm oder Loop? So findest du es sicher heraus

Layer-2-Triage: Broadcast Storm oder Loop? Diese Frage entscheidet in vielen Netzwerken über Minuten oder Stunden Ausfallzeit, weil beide Szenarien ähnliche Symptome erzeugen können: extrem hohe Auslastung auf Switchports, Paketverluste, steigende Latenzen, MAC-Table-Instabilität, CPU-Spikes auf Switches und plötzlich „flappende“ L2-Nachbarschaften. In der Hektik eines Incidents ist es verführerisch, sofort Ports zu shutten oder ganze Segmente zu…

Asymmetrisches Routing: Auswirkungen auf Firewalls und schnelle Diagnose

Asymmetrisches Routing ist einer der häufigsten Gründe dafür, dass Netzprobleme „unlogisch“ wirken: Ping geht, aber TCP-Verbindungen brechen ab; manche Nutzer können sich anmelden, andere bekommen Timeouts; und aus Sicht einzelner Komponenten sieht alles gesund aus. Besonders kritisch wird asymmetrisches Routing in Umgebungen mit stateful Firewalls, NAT-Gateways, Load Balancern oder Anycast-Designs, weil diese Systeme Verbindungen über…

STP-Incident-Playbook: Root Cause, Mitigation und Prävention

Ein STP-Incident-Playbook ist für viele Netzwerke der Unterschied zwischen einem kontrollierten Eingriff und einem stundenlangen Dominoeffekt. Spanning Tree Protocol (STP) und seine Varianten (RSTP, MSTP) schützen Layer-2-Domänen vor Loops, können in Störungen aber selbst zum Verstärker werden: Root-Bridge-Wechsel, Topology-Change-Stürme, inkonsistente Portrollen oder falsch gesetzte Edge-Flags führen zu Paketverlust, Latenzspitzen und scheinbar „zufälligen“ Ausfällen in mehreren…

Falscher VRF Route Target: „Tenant Isolated“-Incident erkennen

Ein falscher VRF Route Target ist eine der häufigsten Ursachen für einen „Tenant Isolated“-Incident in Multi-Tenant-Netzen: Ein Mandant (Tenant) wirkt plötzlich isoliert, obwohl Links, BGP-Sessions und Underlay gesund erscheinen. Der Fehler sitzt dabei nicht auf Layer 1–3 im klassischen Sinn, sondern in der VPN-/VRF-Signalierung: Route Targets (RTs) steuern, welche VPN-Routen in eine VRF importiert und…

RSTP/MSTP in Produktion: Tuning und Failure Modes, die du kennen musst

RSTP/MSTP in Produktion wirkt in vielen Umgebungen wie „einfach STP, nur schneller“. Genau diese Annahme ist eine der häufigsten Ursachen für wiederkehrende Layer-2-Incidents: Ports gehen unerwartet in Discarding, Uplinks werden blockiert, die Root Bridge driftet, oder Topology-Changes erzeugen kurzzeitige Aussetzer, die in Monitoring und Applikationslogs wie „random packet loss“ aussehen. In der Praxis ist RSTP…

NAT-Exhaustion: Typische Symptome, Bestätigung und Lösung

NAT-Exhaustion (Port- oder Session-Erschöpfung bei Network Address Translation) ist ein klassischer Produktions-Incident, der sich besonders heimtückisch anfühlt: Das Netzwerk wirkt „größtenteils“ gesund, aber einzelne Nutzer oder Anwendungen bekommen plötzlich Timeouts, Verbindungsabbrüche oder sporadische 5xx-Fehler. Häufig sind nur bestimmte Zielports betroffen (z. B. 443/HTTPS), oder nur bestimmte Client-Gruppen hinter einem NAT-Pool. Genau das passt zum Mechanismus:…

Fault Domain schnell bestimmen: Underlay vs. Overlay mit OSI

Die Frage „Fault Domain schnell bestimmen: Underlay vs. Overlay mit OSI“ entscheidet im Betrieb oft darüber, ob ein Incident in Minuten oder in Stunden gelöst wird. In modernen Rechenzentren und Cloud-Umgebungen liegen zwischen Anwendung und physischer Infrastruktur mehrere Abstraktionsschichten: VLANs, VRFs, Load Balancer, Tunnel (z. B. VXLAN), Service Mesh, DNS, TLS und Applikationsprotokolle. Wenn ein…

Operative NOC-KPIs pro OSI-Schicht: Was sollte man messen?

„Operative NOC-KPIs pro OSI-Schicht“ sind ein wirkungsvoller Ansatz, um Netzwerkbetrieb nicht nur reaktiv („Alarm abarbeiten“), sondern systematisch und messbar zu steuern. In vielen NOCs existieren zwar Kennzahlen wie Ticket-Volumen, MTTR oder Verfügbarkeit, doch sie bleiben oft zu grob, um konkrete Verbesserungen abzuleiten. Wenn alles unter „Netzwerk“ fällt, ist unklar, ob die Hauptprobleme eher physisch (Layer…