OSPF Flap: Root Cause finden (L1, L2 oder Timer?)

Red Snapper

1 month ago

Ein „OSPF Flap“ ist im Betrieb eines IP-Netzes oft gefährlicher als ein einmaliger OSPF-Ausfall, weil er das Netz in einen Dauerzustand aus Rekonvergenz, SPF-Neuberechnung und wechselnden Traffic-Pfaden zwingt. Während ein „OSPF Neighbor Down“ meist einen klaren Trigger hat (Link down, Change, Fehler), ist ein Flap häufig ein Symptom für ein intermittierendes Problem: Ein Interface flapped kurz, ein Layer-2-Segment ist instabil, oder die OSPF-Timer sind so aggressiv eingestellt, dass schon kleine Jitter-Spitzen im Paketfluss den Dead-Interval reißen. In der Praxis sehen Sie dann wiederholte Ereignisse wie „Neighbor Full → Down → Init → Full“ in kurzen Abständen, manchmal begleitet von Routing-Table-Churn, erhöhten CPU-Lasten, Paketverlusten und „plötzlich langsamen“ Anwendungen. Die zentrale Frage im Incident lautet deshalb: Liegt die Root Cause in Layer 1 (Physik), Layer 2 (Bridging/Transport) oder in den OSPF-Timern bzw. in der Control-Plane? Dieser Artikel liefert eine praxistaugliche Methode, um OSPF Flaps eindeutig zuzuordnen: Welche Indikatoren sprechen für L1, welche für L2, und wann sind Timer/Policing die wahrscheinlichere Ursache. Sie erhalten eine Checkliste, Messgrößen und sichere Recovery-Schritte, die Produktion stabilisieren, ohne durch hektische Maßnahmen (z. B. globale Prozess-Resets) zusätzliche Instabilität zu erzeugen.

Was „OSPF Flap“ operativ bedeutet

OSPF ist ein Link-State-Protokoll. Jede instabile Nachbarschaft führt zu wiederholten LSAs, erneuter SPF-Berechnung und potenziell zu wechselnden Next-Hops. Ein Flap ist daher nicht nur ein „Kontrollproblem“, sondern erzeugt Datenebenen-Effekte: ECMP-Umverteilungen, Mikro-Outages, Neuaufbau von Sessions über stateful Geräte, gelegentlich auch Folgeüberlast auf Backup-Pfaden. Besonders kritisch ist ein Flap auf Transit-Links oder im Backbone (Area 0), weil der Blast Radius größer ist und mehrere Bereiche gleichzeitig betroffen sein können.

Symptome in der Praxis: wiederholte Neighbor-Up/Down-Logs, häufige SPF-Runs, Routen-Churn, Paketverlustspitzen.
Typische Nebenwirkungen: erhöhte CPU, Control-Plane-Queue-Drops, BFD-Events (falls aktiv), instabile Latenz.
Wichtig: Ein Flap ist fast immer ein Hinweis auf Instabilität im Transport oder Timing, nicht auf „OSPF als solches“.

Für die Protokollgrundlage und die Hello/Dead-Mechanik sind RFC 2328 (OSPFv2) und für OSPFv3 RFC 5340 (OSPF for IPv6) die zentralen Referenzen.

Die drei Root-Cause-Klassen: L1, L2 oder Timer/Control-Plane

Ein belastbares Troubleshooting startet mit Klassifizierung. Die folgenden drei Klassen decken fast alle OSPF-Flap-Fälle ab:

L1 (Physik): Link-Flaps, optische Degradation, CRC/Interface-Errors, Duplex-/Speed-Probleme, instabile Transceiver oder Kabel.
L2 (Bridging/Transport): VLAN-Drift, STP-Events, LACP/Port-Channel-Instabilität, Micro-Loops, Broadcast/Unknown-Unicast-Flooding, MLAG/vPC-Anomalien.
Timer/Control-Plane: zu aggressive Hello/Dead-Timer, Paket-Jitter und Drops von OSPF-Hellos durch ACL/CoPP/Policing, CPU-Spikes, Scheduling-Delays.

Die Kunst ist, nicht „alles parallel“ zu prüfen, sondern zuerst das wahrscheinlichste Muster zu erkennen. Ein Flap, der exakt im Dead-Interval-Rhythmus auftritt, hat meist eine andere Ursache als ein Flap, der zeitgleich mit Interface-Errors hochgeht.

Erste Triage: 5-Minuten-Checks, die die Richtung festlegen

Bevor Sie tief in Details gehen, klären Sie drei Dinge: Zeitmuster, Scope und Korrelationen. Damit vermeiden Sie, sich in OSPF-States zu verlieren, wenn das Underlay instabil ist.

Zeitmuster: Flap alle X Sekunden/Minuten? Passt X zum Dead-Interval? Oder ist es „random“?
Scope: Flappt nur eine Nachbarschaft oder mehrere gleichzeitig? Mehrere sprechen eher für L2/Control-Plane oder gemeinsames Underlay.
Korrelation: Zeitgleich Interface-Flaps, STP-Topology-Changes, LACP-Member-Changes, Broadcast-Storm-Indikatoren oder CPU-Spikes?
Impact: Nur Rekonvergenz ohne Paketverlust (kurz) oder echte Applikationsausfälle (lange)?

L1 als Root Cause: Wenn die Physik „nur kurz“ aussetzt

L1-Probleme sind die häufigste Ursache für echte Flaps, weil OSPF auf kontinuierliche Hello-Kommunikation angewiesen ist. Schon kurze Aussetzer können reichen, wenn die Timer knapp sind oder wenn zusätzlich Jitter und Policing wirken. L1-Probleme sind besonders tückisch, wenn ein Link nicht vollständig down geht, sondern „schlecht“ wird: Fehlerzähler steigen, Pakete gehen verloren, aber das Interface bleibt administrativ up.

L1-Indikatoren, die stark für Physik sprechen

Interface Counter: CRC/Input Errors, FCS, Runt/Giant Frames, Output Drops (je nach Plattform) steigen parallel zum Flap.
Link-Events: Syslog zeigt „Interface up/down“ oder „link flap“ im selben Zeitfenster wie Neighbor-Down.
Optikwerte: Rx-Power driftet Richtung Threshold, DOM/DDM Alarme (High/Low), Temperatur/Voltage auffällig.
Autoneg/Speed/Duplex: Mismatch oder instabile Autoneg kann Paketverluste erzeugen, die OSPF treffen.

Typische L1-Ursachen in Produktion

Verschmutzte Stecker: Besonders bei LC/SC: Mikroskopische Verschmutzung reicht für intermittierende Errors.
Knick/Stress am Kabel: Bewegung im Rack, Tür, Zugentlastung, Patchkabel zu kurz.
Inkompatible oder grenzwertige Optik: Falscher Transceiver-Typ, marginale Dämpfung, falscher Wellenlängenbereich.
Defekter Port/SFP: Der Fehler „wandert“ mit, wenn Sie die Optik tauschen; das ist ein starker Beleg.

L2 als Root Cause: Wenn das Segment instabil ist, obwohl L1 „up“ bleibt

Viele OSPF-Links laufen heute nicht als „reines Point-to-Point“ über dedizierte Leitung, sondern über VLANs, Trunks, LAGs, MLAG/vPC oder Metro-Ethernet. In solchen Umgebungen kann Layer 2 instabil sein, ohne dass das Interface down geht. OSPF-Hellos werden dann unzuverlässig transportiert: mal kommen sie an, mal nicht, oder sie kommen verspätet an. Ergebnis: OSPF Flap, obwohl L1 gesund wirkt.

L2-Indikatoren, die für Bridging-Probleme sprechen

STP-Events: Topology Changes, Root-Wechsel, Portrollen-Änderungen zeitgleich mit Flaps.
LACP-/Port-Channel-Instabilität: Member wechseln zwischen active/suspended, Hashing verschiebt Traffic, Micro-Outages entstehen.
MAC-Flapping: MAC-Adressen „springen“ zwischen Ports, besonders auf Trunks/Uplinks.
Broadcast/Unknown-Unicast Peaks: Flooding steigt stark, Management wird träge, OSPF-Pakete gehen unter.
VLAN-Drift: Allowed VLANs ändern sich auf einer Seite; OSPF-VLAN ist plötzlich nicht überall identisch.

Konkrete L2-Szenarien, die OSPF Flaps verursachen

OSPF über Trunk-VLAN: Ein Change an Allowed VLANs oder Native VLAN verschiebt das OSPF-VLAN oder verursacht Tagged/Untagged-Mismatch.
OSPF über Port-Channel: Ein Member ist fehlerhaft, erzeugt Drops; LAG bleibt up, aber Hellos verlieren sich.
Micro-Loop im Access: Kurzzeitige Schleifen erzeugen Storms, die Control-Traffic verdrängen.
MLAG/vPC-Anomalien: In bestimmten Fehlzuständen (z. B. Peer-Link instabil) kann L2-Forwarding asymmetrisch werden.

Timer und Control-Plane als Root Cause: Wenn Hellos nicht „rechtzeitig“ ankommen

Wenn Underlay und L2 stabil sind, bleibt häufig Timer/Control-Plane als Ursache. Dabei ist wichtig: Ein Timer-Problem ist selten „nur“ ein falscher Wert, sondern eine Kombination aus aggressiven Timern und realem Paket-Jitter oder Paketverlust (z. B. durch CoPP, Policing, QoS oder CPU-Last). OSPF-Hellos sind kleine Control-Pakete; sie müssen regelmäßig und zuverlässig transportiert werden. Wenn die Plattform sie verzögert oder wenn Policies sie drosseln, reißt die Nachbarschaft.

Typische Timer-/Control-Plane-Indikatoren

Flap-Rhythmus passt zum Dead-Interval: Nachbarschaft fällt exakt nach Dead-Timeout, ohne dass Interfaces flappen.
CPU-Spikes zeitgleich: Control-Plane ist überlastet, Hellos werden nicht rechtzeitig gesendet oder verarbeitet.
CoPP/Policing Drops: OSPF-Pakete werden rate-limited (besonders bei Rekonvergenz oder vielen Nachbarn).
Asymmetrische Filter: Hellos kommen in eine Richtung durch, in die andere nicht (Init/2-Way-Pattern oder sporadische Full/Down-Zyklen).

Timer-Budget greifbar machen

Für die Praxis hilft ein simples Modell: Eine Nachbarschaft bleibt stabil, wenn innerhalb des Dead-Intervals mindestens ein gültiges Hello ankommt (und verarbeitet wird). Je kleiner das Hello-Interval, desto mehr „Chancen“ pro Dead-Interval, aber desto mehr Control-Traffic. Je kleiner das Dead-Interval, desto empfindlicher wird das System.

HelloChances = DeadInterval HelloInterval

Wenn HelloChances sehr klein ist (z. B. durch aggressive Timer), reichen wenige verlorene Hellos, um den Neighbor zu verlieren. Das ist besonders riskant, wenn das Segment ohnehin Jitter hat oder wenn OSPF-Pakete nicht priorisiert werden.

Die wichtigste Unterscheidung im Flap: „Interface flapped“ vs. „Adjacency flapped“

Ein effizienter RCA-Schritt ist die klare Trennung: Flappt das Interface selbst (Link up/down), oder bleibt das Interface up und nur die OSPF-Nachbarschaft flappt? Diese Unterscheidung entscheidet, ob Sie primär L1/L2 oder Timer/Policy/Control-Plane untersuchen.

Interface flapped: Sehr häufig L1 (Optik/Kabel/Port), manchmal L2 (Port-Channel Member wechselnd, STP errdisable), selten Timer.
Interface stabil, OSPF flapped: Häufig L2 (VLAN/Trunk/Storm) oder Timer/CoPP/CPU; L1 ist möglich, wenn Errors auftreten ohne Link-Down.

Checkliste: Root Cause finden (L1, L2 oder Timer?)

Die folgende Checkliste ist als Ablauf gedacht, nicht als Sammelliste. Arbeiten Sie sie in Reihenfolge ab, um schnell zu einer belastbaren Hypothese zu kommen.

Schritt: Zeitlinie und Korrelation

Logs vergleichen: OSPF Neighbor Down-Zeitpunkte gegen Interface-/STP-/LACP-Events legen.
Periodizität prüfen: Wiederholt sich der Flap exakt oder ist er unregelmäßig?
Change-Korrelation: ACL/CoPP/Timer/MTU/VLAN-Änderungen im selben Zeitfenster?

Schritt: L1-Validierung

Interface Counter Trend: Steigen CRC/Input Errors während des Flaps?
Optik prüfen: Rx/Tx-Power nahe Grenzwert oder driftend?
Komponenten tauschen: Wenn möglich, SFP/Patchkabel testweise tauschen, um „Wandern“ des Fehlers zu prüfen.

Schritt: L2-Validierung

VLAN-Konsistenz: Ist das OSPF-VLAN auf allen Trunks erlaubt und identisch?
LACP/Port-Channel Stabilität: Member stabil „in sync“? Keine „suspended“/„standby“-Zustände?
STP-Events: Topology Changes oder Root-Wechsel? Edge-Ports sauber geschützt?
Storm-Indikatoren: Broadcast/Unknown-Unicast Peaks, MAC-Flapping, Management-Timeouts?

Schritt: Timer/Policy/Control-Plane

Hello/Dead-Parameter: End-to-end identisch und passend zur Linkqualität?
CoPP/ACL prüfen: OSPF-Multicast (OSPFv2: 224.0.0.5/224.0.0.6) darf nicht gedroppt werden.
CPU und Control-Plane Drops: Gibt es Hinweise auf Policing oder Queue-Drops bei Control-Traffic?
QoS Priorisierung: Ist Control-Traffic ausreichend priorisiert, um in Peaks nicht unterzugehen?

Recovery-Schritte: Stabilisieren ohne „SPF-Sturm“

Bei OSPF Flaps ist das primäre Ziel: Stabilität herstellen, nicht „schnell einmal Full sehen“. Ein kurzfristiges „Full“ ist wertlos, wenn die Nachbarschaft nach 60 Sekunden wieder fällt. Recovery sollte daher die Ursache adressieren und erst danach die Nachbarschaft neu initialisieren.

Sichere Mitigation in der Produktion

Wenn L1 wahrscheinlich ist: Traffic auf redundante Pfade lenken (sofern vorhanden), fehlerhafte Optik/Port isolieren, physisch beheben.
Wenn L2 wahrscheinlich ist: Instabilen Trunk/Member gezielt isolieren, Storm-Control prüfen, VLAN-Drift korrigieren.
Wenn Timer/Control-Plane wahrscheinlich ist: CoPP/ACL korrigieren, Timer konservativer setzen, Control-Traffic priorisieren.

Kontrollierte Neuinitialisierung

Minimalinvasiv: Erst nachdem Underlay/Policy sauber ist, Adjacency neu aufbauen lassen.
Vermeiden: Unkoordiniertes „clear ospf process“ im Backbone, weil es großflächige Rekonvergenz erzeugen kann.
Verifikation: Neighbor bleibt stabil Full, SPF-Runs normalisieren sich, Route-Churn stoppt, Paketverlust verschwindet.

Häufige RCA-Fallen, die OSPF Flaps verlängern

In vielen Teams wiederholen sich dieselben Fehler im Troubleshooting. Wenn Sie diese Fallen vermeiden, sinkt die MTTR deutlich.

Nur auf OSPF schauen: OSPF flappt oft wegen Underlay-Instabilität; Counter und L2-Events sind meist schneller aussagekräftig.
„Link ist up, also ist L1 ok“: Ein Link kann up sein und trotzdem massiv droppen (CRC, Optik grenzwertig).
Aggressive Timer als Standard: Schnellere Konvergenz klingt gut, erzeugt aber Flaps, wenn Jitter/Policing nicht berücksichtigt wurde.
Globaler Prozessreset: Kann Symptome kurzfristig kaschieren, aber Ursachen bleiben und der Flap kehrt zurück.
Asymmetrische Filter übersehen: Input/Output-ACL oder CoPP in einer Richtung reicht, um Hellos zu verlieren.

Prävention: OSPF-Flaps dauerhaft reduzieren

OSPF Flaps sind häufig Wiederholer, wenn Netz und Prozesse nicht auf Stabilität optimiert sind. Prävention bedeutet: Underlay baselinen, L2 konsistent halten und OSPF-Parameter so wählen, dass sie zur realen Linkqualität passen. Gleichzeitig sollte Control-Traffic nicht „zufällig“ durch Policies fallen.

Interface-Baselines: Error Counter, Flap-Raten, optische Werte regelmäßig überwachen und Trends erkennen.
L2-Standardisierung: Portprofile, VLAN-Listen, LACP-Parameter, STP-Härtung (z. B. BPDU Guard auf Edge-Ports) konsistent halten.
Timer-Strategie: Timer nicht aggressiver als nötig; bei empfindlichen Links eher konservativ oder BFD gezielt und getestet einsetzen.
CoPP/QoS Governance: OSPF- und andere Control-Protokolle explizit erlauben und priorisieren, nicht „implizit hoffen“.
Change-Disziplin: MTU, VLAN, ACL, Policing und LAG-Änderungen immer end-to-end prüfen und dokumentieren.

Outbound-Links: Verlässliche Grundlagen für OSPF und angrenzende Themen

Checkliste zum Kopieren: OSPF Flap in 20 Minuten sauber zuordnen

Zeitlinie bauen: OSPF-Down-Zeitpunkte gegen Interface-/L2-/CPU-Events legen.
Interface flapped? Wenn ja: L1 zuerst (Errors, Optik, Kabel, Port, Autoneg/Speed).
Interface stabil, aber Neighbor flapped? L2 prüfen (VLAN, STP, LACP, Storm-Indikatoren) und anschließend Timer/Policy.
Dead-Interval-Muster? Flap-Rhythmus passt zum Dead-Timeout → Timer/Hello-Verlust/CoPP besonders wahrscheinlich.
Errors ohne Link-Down? L1 kann trotzdem Root Cause sein (CRC/Optik drift).
STP/MAC-Flaps/Storms? L2 als Root Cause priorisieren.
CoPP/ACL/QoS: OSPF (Multicast bei OSPFv2) darf nicht gedroppt werden; Control-Traffic priorisieren.
Recovery kontrolliert: Ursache beheben, dann Adjacency neu aufbauen; globale Prozessresets vermeiden.
Verifizieren: Neighbor stabil, SPF-Runs normal, Route-Churn stoppt, Paketverlust verschwindet.
Prävention ableiten: Baselines, Portprofile, Timer-Strategie, Policy-Governance und Change-Prozess verbessern.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.