OSPF Troubleshooting: Neighbor States und LSA-Probleme schnell finden

Red Snapper

2 months ago

OSPF Troubleshooting ist in großen Cisco-Netzen eine der häufigsten und zugleich zeitsensibelsten Aufgaben im Betrieb: Wenn OSPF-Neighbors nicht „Full“ werden, wenn Adjacencies flappen oder wenn Routen fehlen, steht oft sofort die Frage im Raum, ob ein Standort oder ein ganzer Pod erreichbar bleibt. Der Vorteil von OSPF ist seine klare Zustandsmaschine und seine gut definierte Datenbasis (Hello/DBD/LSA/LSDB): Mit einem strukturierten Workflow können Sie die Ursache meistens schnell eingrenzen – vorausgesetzt, Sie arbeiten nicht „nach Gefühl“, sondern entlang der Neighbor States und der LSA-Logik. Typische Fehlerbilder sind dabei überraschend banal: falsche Area, falsche Authentifizierung, MTU-Mismatch, falscher Network Type, passive-interface, ACLs, die Multicast blocken, oder ein Router-ID-Konflikt. Daneben gibt es komplexere LSA-Probleme, bei denen Adjacencies zwar „Full“ sind, aber Routen fehlen oder inkonsistent werden, etwa durch falsche Summarization, Stub-/NSSA-Mismatches, fehlerhafte Redistribution oder LSA-Flapping. Dieser Artikel liefert einen praxiserprobten Diagnose-Workflow für Cisco IOS/IOS XE (und konzeptionell auch NX-OS), um Neighbor States und LSA-Probleme systematisch zu finden, ohne riskante Debugs oder hektische Änderungen zu verursachen.

Grundprinzip: Erst Neighbor stabilisieren, dann LSDB prüfen

In der Praxis scheitert OSPF-Troubleshooting oft daran, dass LSA-Analyse gestartet wird, obwohl die Nachbarschaft nicht stabil ist. Die Reihenfolge sollte fast immer so aussehen:

Schritt 1: Prüfen, ob OSPF auf dem richtigen Interface aktiv ist und Hellos beidseitig ankommen.
Schritt 2: Neighbor State interpretieren und die passende Fehlerklasse ableiten.
Schritt 3: Wenn Neighbors „Full“ sind, LSDB und Route-Installation prüfen.
Schritt 4: Erst danach an Optimierungen (Timer, SPF/LSA-Throttling) denken.

Damit vermeiden Sie, dass Sie in der Datenbank „Symptome“ suchen, während die eigentliche Ursache ein Link-/Hello-Problem ist.

Erster Check: OSPF läuft wirklich dort, wo Sie es erwarten

Beginnen Sie mit einer einfachen, aber häufig übersehenen Frage: Ist OSPF auf genau diesem Interface aktiv, im richtigen VRF-Kontext und mit der erwarteten Area?

OSPF-Prozess aktiv? Prüfen Sie, ob der Prozess läuft und welche Interfaces/Netze er abdeckt.
Interface aktiv? Ist das Interface up/up, hat es die richtige IP/Mask, ist es nicht administrativ down?
Passiv? passive-interface ist eine klassische Ursache für „Down“ oder „No Neighbor“.
VRF/Instanz: In VRF-Designs müssen Sie im richtigen Kontext prüfen; ein OSPF-Prozess in Global Routing sieht keine VRF-Interfaces.

Wenn OSPF auf dem Interface gar nicht aktiv ist, sind Neighbor States und LSAs irrelevant – dann ist es ein Design-/Konfigurationsproblem, kein Protokollproblem.

Neighbor States verstehen: Was der Status über die Ursache verrät

OSPF ist dank seiner Zustandsmaschine sehr gut zu diagnostizieren. Jeder State zeigt eine bestimmte Phase der Adjacency-Bildung – und typische Fehlerquellen sind pro State erstaunlich konstant.

Down / No Neighbor

Hellos kommen nicht an: Layer-1/2/3 Problem, falsches VLAN, falsches Subnetz, falsches VRF, falsches Interface.
Multicast blockiert: OSPF nutzt typischerweise 224.0.0.5/224.0.0.6; ACLs/CoPP können das droppen.
OSPF nicht aktiv: passive-interface, falsches network statement, falscher Interface-Mode.

Wenn der Neighbor gar nicht sichtbar ist, ist die erste Hypothese immer: „Wir sehen keine Hellos“.

Init

Einseitige Sichtbarkeit: Sie empfangen Hellos, aber Ihr Router-ID taucht im Hello des Nachbarn nicht auf.
Typische Ursachen: Unidirektionale Weiterleitung, Filter, oder der Nachbar empfängt Ihre Hellos nicht (ACL, Multicast, L2-Problem).

Init ist ein starker Hinweis auf „nur eine Richtung funktioniert“.

2-Way

Normal auf Multiaccess: Auf Broadcast/Non-Broadcast Multiaccess Netzen erreichen nicht alle Neighbors Full; Full entsteht meist nur zu DR/BDR.
Problem, wenn Full erwartet wird: Falscher Network Type, DR/BDR-Wahl oder NBMA/Neighbor-Konfiguration.

2-Way ist nicht automatisch ein Fehler. Es ist nur ein Fehler, wenn Ihre Topologie Full zwischen allen erwartet (z. B. Point-to-Point).

ExStart / Exchange

DBD-Handshake hängt: Häufig MTU-Mismatch oder falscher Network Type.
Duplicate Router ID: Kann zu seltsamen Effekten führen, inklusive Adjacency-Problemen.
Auth/Area-Mismatch: Kann auch früher stoppen, aber je nach Plattform sehen Sie Symptome erst beim Database-Exchange.

ExStart/Exchange sind die klassischen „MTU“-Zustände. Wenn Sie diese States sehen, prüfen Sie MTU sehr früh.

Loading

LSR/LSU-Phase: Der Router fordert LSAs an und lädt sie. Wenn es hier hängt, fehlt oft ein LSA-Transfer, es gibt Drops oder ein Ressourcenproblem.
Typische Ursachen: Paketverlust, MTU/Fragmentierung, fehlerhafte Filter/CoPP, CPU-Pressure, sehr große LSDB.

Full

Full bedeutet: Adjacency steht, LSDB ist synchron. Wenn trotzdem Routen fehlen, ist es fast immer ein LSA-/Policy-/Routing-Installationsproblem, nicht ein Neighbor-Problem.

Der schnelle Kommandosatz: Minimal invasive Diagnose

Ein professioneller Workflow nutzt wenige Kommandos mit hoher Aussagekraft. Damit vermeiden Sie Debug-Flooding und bleiben auch in sensiblen Wartungsfenstern handlungsfähig.

Neighbors: State, Dead Timer, Neighbor-ID, Interface, DR/BDR-Zuordnung.
Interface-Details: Area, Network Type, Hello/Dead, MTU, Auth, Cost.
LSDB: Welche LSA-Typen sind da, welche fehlen, welche flappen?
Routing Table: Welche OSPF-Routen sind installiert, welche nicht?

Wenn Sie diese vier Ebenen sauber abdecken, lösen sich die meisten OSPF-Fälle ohne Debug.

Häufigste Ursachen für Neighbor-Probleme und wie Sie sie schnell ausschließen

In der Praxis sind 80% der Neighbor-Probleme auf wenige Ursachencluster zurückzuführen. Der Trick ist, sie in der richtigen Reihenfolge zu prüfen, passend zum Neighbor State.

Timer-Mismatch (Hello/Dead)

Symptom: Neighbor kommt kurz hoch und fällt wieder, oder bleibt in Down/Init.
Check: Stimmen Hello und Dead Timer auf beiden Seiten? Besonders häufig bei manueller Timer-Tuning-Konfiguration.
Best Practice: Timer nur gezielt tunen und standardisieren; sonst erhöhen Sie Drift und Incident-Risiko.

Area-Mismatch oder Stub/NSSA-Flags

Symptom: Adjacency kommt nicht zustande oder flapped, oft mit Hinweisen auf Area ID oder Stub-Optionen.
Check: Area-ID gleich? Stub/NSSA-Konfiguration kompatibel? In Stub-Designs müssen Flags konsistent sein.
Hinweis: Stub/NSSA-Mismatches können sehr „hart“ sein – häufig werden Neighbors gar nicht Full.

Authentication-Mismatch

Symptom: Hellos werden empfangen, aber Adjacency kommt nicht hoch; je nach Plattform erscheinen Auth-Errors.
Check: Auth-Typ (plain/md5/… je Plattform) und Keys identisch? Key-Rollover sauber geplant?
Prozess: Key-Rotation immer als Change mit Maintenance Window und klaren Backout-Schritten behandeln.

MTU-Mismatch

Symptom: Hängen in ExStart/Exchange, DBD-Exchange bricht oder wiederholt sich.
Check: Interface MTU beidseitig gleich? Jumbo im DC häufige Ursache, insbesondere wenn ein Linksegment anders konfiguriert ist.
Wichtig: MTU-Probleme zeigen sich oft erst unter Last oder bei bestimmten LSA-Größen, nicht immer sofort.

Network Type Mismatch (Broadcast, Point-to-Point, NBMA)

Symptom: Neighbors bleiben in 2-Way oder bilden falsche DR/BDR-Strukturen, insbesondere auf p2p-links, die als Broadcast laufen.
Check: Network Type auf beiden Seiten konsistent und passend zur Topologie?
Praxis-Tipp: Auf echten Punkt-zu-Punkt-Links ist p2p oft die sauberste Wahl, weil es DR/BDR eliminiert.

ACLs/CoPP blocken OSPF oder Fragmentierung

Symptom: Hellos sporadisch, Loading hängt, LSA-Requests werden nicht vollständig beantwortet.
Check: Control-Plane Policing zu strikt? ACLs auf SVI oder Transit droppen Multicast oder Protocol 89?
Design: OSPF muss als legitimer Control-Plane-Traffic in Policies berücksichtigt werden.

LSA-Probleme: Wenn Neighbors Full sind, aber Routen fehlen

Wenn die Nachbarschaft Full ist, liegt die Ursache häufig in der LSA-Logik oder in der Route-Installation. Ein strukturierter Ansatz startet mit drei Fragen:

Ist die LSA überhaupt in der LSDB? Wenn nein: Ursprung, Flooding oder Filterproblem.
Ist die LSA korrekt und stabil? Wenn sie flapped, ist oft die Quelle instabil (Interface flaps, Redistribution-Churn).
Wird die Route installiert? Wenn LSDB ok, aber Route fehlt: RIB-Install, Administrative Distance, Filtering, Summarization.

LSA-Typen praxisnah: Welche LSA ist für welche Route verantwortlich?

Sie müssen nicht alle Details auswendig kennen, aber für Troubleshooting sollten Sie die typischen LSA-Kategorien einordnen können:

Type 1 (Router LSA): Intra-Area-Topologie eines Routers.
Type 2 (Network LSA): Von DR im Broadcast-Netz erzeugt, beschreibt Multiaccess-Segment.
Type 3 (Summary LSA): Inter-Area-Routen via ABR (Area Summaries).
Type 4 (ASBR Summary): Hinweis auf ASBR-Standort für externe Routen.
Type 5 (External LSA): Externe Routen (Redistribution) in normalen Areas.
Type 7 (NSSA External): Externe Routen innerhalb NSSA, werden am ABR typischerweise zu Type 5 übersetzt.

Wenn eine Route fehlt, überlegen Sie: Ist das eine intra-area Route (Type 1/2), inter-area (Type 3/4) oder external (Type 5/7)? Das bestimmt, wo Sie suchen müssen (in der Area, am ABR oder am ASBR).

Typische LSA-Fehlerbilder und schnelle Diagnosewege

Inter-Area Route fehlt (Type 3)

Ursache: ABR erzeugt keine Summary, Summarization falsch, Area-Konfiguration inkonsistent.
Check: Ist der ABR wirklich ABR (Interfaces in mehreren Areas up)? Gibt es Filter (area range, distribute-list je Plattform)?
Stolperstein: In Stub/NSSA-Designs sind externe Routen anders sichtbar; prüfen Sie Area-Typen.

Externe Route fehlt oder flapped (Type 5/7)

Ursache: Redistribution instabil (Interface flaps, Tracking, route-map), Tagging/Policy falsch, „deny“ in route-map.
Check: Existiert die Quelle der Redistribution stabil? Werden nur gewünschte Prefixe redistributiert? Gibt es Loop-Prevention (tags)?
Praxis-Tipp: Externe LSAs können schnell die LSDB aufblasen; kontrollieren Sie Scope und Summaries.

LSDB inkonsistent oder „stuck“ in Loading

Ursache: Paketverlust/Fragmentierung, CoPP/ACL, Ressourcenlimit, sehr große LSDB.
Check: Hängen LSA-Requests? Gibt es Drops auf dem Transit? Sind MTU/Fragmentierung sauber?
Prozess: Bevor Sie Timer tunen: Paketpfad stabilisieren und Drops entfernen.

Topology Churn: Viele LSAs ändern sich ständig

Ursache: Flappende Interfaces, instabile Nachbarn, Tracking/IP SLA, falsche BFD-Integration, Route-Redistribution mit „noisy“ Quellen.
Check: Welche LSA-IDs ändern sich? Welche Router-ID ist der „Churn“-Ursprung? Log/Counter korrelieren.
Gegenmaßnahme: Ursache stabilisieren (Link/Neighbor), nicht „LSA throttling“ als Pflaster missbrauchen.

LSA-Probleme schnell eingrenzen: Wo suchen Sie den Ursprung?

Ein praktisches Muster ist „Ursprung → Flooding → Installation“:

Ursprung: Der Router, der die LSA erzeugt (z. B. ASBR für externe Routen, ABR für Summaries).
Flooding: Kommt die LSA in der Area an? Wenn nicht: Neighbor/Flooding/Filter.
Installation: Wird die Route im RIB installiert? Wenn nicht: Distance/Filter/Policy.

Damit vermeiden Sie, dass Sie „auf dem falschen Router“ nach einer LSA suchen, die dort niemals entstehen kann.

Debugging ohne Risiko: Conditional Debugs und Captures als letzte Stufe

OSPF-Debugs können sehr laut sein und die Control Plane belasten. In Enterprise-Umgebungen sollten Debugs nur dann genutzt werden, wenn Show-Kommandos und LSDB-Analyse nicht ausreichen – und dann nur konditional, zeitlich begrenzt und mit klarer Hypothese.

Conditional Debug: Auf Interface/Neighbor begrenzen, nicht „debug all“.
Kurzes Zeitfenster: Sekunden bis wenige Minuten, dann deaktivieren.
Alternative: Embedded Packet Capture (EPC) oder SPAN/ERSPAN, gefiltert auf OSPF (Protocol 89) und relevante IPs.

Gerade bei Init/Down-Problemen ist ein kurzer Capture oft aussagekräftiger als ein langer Debug-Stream, weil Sie sofort sehen, ob Hellos ankommen, ob Auth-Header passen und ob MTU/Fragmentierung ein Thema ist.

Best Practices zur Prävention: Damit OSPF nicht ständig „auffällig“ wird

Standardisieren: Timer, Network Types, Auth-Methoden, MTU-Profile rollenbasiert definieren (Golden Configs).
Guardrails: CoPP/ACLs so designen, dass OSPF zuverlässig funktioniert, ohne die Control Plane zu exponieren.
Stabilität vor Aggressivität: BFD/Timer-Tuning nur dort, wo es wirklich nötig ist und getestet wurde.
Observability: Syslog/Telemetry so ausbauen, dass Neighbor Flaps und LSA-Churn schnell sichtbar werden.
Change-Disziplin: OSPF-Änderungen (Area, Auth, Redistribution) in Wartungsfenstern mit Backout durchführen.

Runbook: Schneller OSPF Troubleshooting Ablauf

OSPF aktiv? Interface/VRF/Area prüfen, passive-interface ausschließen.
Neighbor State? Down/Init/2-Way/ExStart/Loading/Full interpretieren.
Bei Down/Init: Multicast/ACL/CoPP/Layer-2 prüfen, Hellos beidseitig sicherstellen.
Bei 2-Way: Network Type und DR/BDR-Logik prüfen, ob Full überhaupt erwartet ist.
Bei ExStart/Exchange: MTU, Router-ID-Konflikte, Network Type, Auth prüfen.
Bei Loading: Drops, Fragmentierung, CoPP/ACL, LSDB-Größe, Ressourcen prüfen.
Bei Full aber Route fehlt: LSA-Typ bestimmen (1/2/3/5/7), LSDB prüfen, ABR/ASBR/Filter/Summarization prüfen, RIB-Install prüfen.
Wenn unklar: Kurzer, gefilterter Capture oder konditionaler Debug mit Zeitlimit.

Outbound-Referenzen

RFC 2328 (OSPFv2) als normative Grundlage für Neighbor States, LSAs und Flooding-Regeln.
Cisco: OSPF Troubleshooting Guidelines für Cisco-spezifische Diagnosemuster und typische Fehlerursachen.
Cisco: OSPF Neighbor Problems (MTU, Auth, Area) als praxisnahe Referenz für die häufigsten Adjacency-Fallen.
Wireshark Dokumentation für gefilterte Captures und Protokollanalyse bei Hello/DBD/LSA-Problemen.
Cisco IOS XE Configuration Guides für plattformspezifische OSPF-Optionen, VRF-Kontexte und Kommandoreferenzen.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.