SD-WAN Troubleshooting ist heute ein Standardthema in IT-Netzwerken, weil SD-WAN nicht nur „mehrere Leitungen bündelt“, sondern aktiv entscheidet, welcher Pfad für welche Anwendung genutzt wird – abhängig von Latenz, Jitter, Paketverlust, Policies, Sicherheitsprofilen und Failover-Logik. Genau das macht SD-WAN leistungsfähig, aber auch fehleranfällig: Eine Leitung ist physisch „up“, trotzdem werden Sprachpakete verworfen, weil die Pfadqualität unter die SLA rutscht. Oder Failover schaltet nicht, weil nur „Hard Down“ erkannt wird, nicht aber ein Brownout (hoher Loss, hohe Latenz). Oder eine Applikation landet im falschen Policy-Set, weil die Erkennung (DPI/App-ID) falsch klassifiziert, DSCP-Markierungen fehlen oder Segmentierung/VRF nicht konsistent ist. In der Praxis äußert sich das als sporadische Ausfälle („mal geht’s, mal nicht“), einseitige Verbindungen, Abbrüche bei VPN/VoIP/Video oder überraschende Pfadwechsel. Dieser Leitfaden zeigt Ihnen, wie Sie SD-WAN-Probleme systematisch lösen: Sie prüfen zuerst die Pfadqualität objektiv (Loss/Latenz/Jitter), dann die Policies (App-Aware Routing, DIA vs. Backhaul, Zonen/Segmente) und schließlich Failover und Recovery – mit reproduzierbaren Tests, klaren Messpunkten und belastbaren Beweisen für Provider- oder Konfigurationsfehler.
Wie SD-WAN entscheidet: Control Plane, Data Plane und SLA-Logik
SD-WAN besteht im Kern aus drei Ebenen, die Sie beim Troubleshooting sauber trennen sollten. Viele „SD-WAN-Probleme“ sind nämlich keine, sondern entstehen entweder im Underlay (Provider, Leitung, Last-Mile) oder in der Policy-Ebene (falsche Regeln, falsche Segmentierung).
- Underlay: Physische Internet-/MPLS-/LTE-Leitung, Provider-Routing, last-mile, Modem/ONT, L2/L3-Anbindung.
- Overlay (Data Plane): Verschlüsselte Tunnel (häufig IPsec), Pfadauswahl, Forwarding, NAT, QoS.
- Control/Management: Orchestrator/Controller, Routing-Distribution, Policy Push, Telemetrie und Zustand der Edges.
Viele SD-WAN-Overlays nutzen IPsec als Transport-/Verschlüsselungsschicht; als Referenz eignet sich IPsec-Grundlagen nach RFC 4301.
Typische Symptome: Woran SD-WAN-Probleme in der Praxis erkennbar sind
SD-WAN-Fehlerbilder wirken häufig „selektiv“: Nicht alles fällt aus, sondern bestimmte Anwendungen oder Standorte. Genau das ist ein Hinweis, dass Policies oder SLA-Mechanismen involviert sind.
- VoIP/Video ruckelt oder bricht ab: Jitter und Loss steigen, Pfadwechsel mitten in der Session.
- Cloud/SaaS langsam, On-Prem ok: DIA-Policy greift nicht, Backhaul wird genutzt, oder Proxy/Firewall-Pfad bremst.
- Nur bestimmte Apps betroffen: App-Erkennung/Ports falsch klassifiziert, Policy greift auf falsche Traffic-Klasse.
- Failover schaltet nicht: Link bleibt „up“, aber ist qualitativ schlecht (Brownout), oder Thresholds sind unpassend.
- „Mal geht’s, mal nicht“: ECMP/Load-Balancing im Underlay, wechselnde Underlay-Pfade, asymmetrische Rückwege.
- VPN/Private Apps einseitig: Segment/VRF inkonsistent, NAT/Firewall-States, asymmetrisches Routing über verschiedene Hubs.
Pfadqualität messen: Latenz, Jitter, Paketverlust richtig interpretieren
Der wichtigste Schritt im SD-WAN Troubleshooting ist, die Pfadqualität nicht „gefühlt“, sondern messbar zu machen. SD-WAN misst meist aktiv über Probes (z. B. UDP- oder ICMP-basierte Messpakete) oder nutzt Telemetrie aus echten Flows. Entscheidend ist, dass Sie wissen, was gemessen wird und von wo nach wo. Ein Pfad kann für ICMP gut aussehen, aber für UDP/VoIP schlecht sein – oder umgekehrt.
Grundwerte und praxisnahe Schwellen
- Latenz: Zeit für Hin- und Rückweg (RTT). Für interaktive Anwendungen meist kritisch ab deutlich erhöhten RTTs.
- Jitter: Schwankung der Paketlaufzeit. Besonders kritisch für Echtzeit (VoIP, Video, VDI).
- Paketverlust: Loss in Prozent. Schon niedrige Werte können TCP und Echtzeitdienste stark beeinträchtigen.
Wichtig: SD-WAN-SLAs sollten pro Applikationsklasse definiert sein. Eine Dateiübertragung toleriert mehr Jitter als ein VoIP-Call, während Loss bei beiden schmerzt – aber auf unterschiedliche Weise.
Aktive Probes vs. echte Anwendung
- Probes: gut für kontinuierliche Messung, aber sie bilden nicht immer echte Applikationspfade ab (z. B. andere DSCP-Markierung, andere Behandlung im Provider-Netz).
- Flow-basierte Metriken: näher an der Realität, aber abhängig davon, dass genügend Traffic vorhanden ist und korrekt klassifiziert wird.
- Best Practice: Probes so markieren (DSCP), dass sie dem echten Traffic entsprechen, oder pro Klasse getrennt messen.
Policies verstehen: Warum die „richtige Leitung“ nicht genutzt wird
In SD-WAN entscheidet nicht nur Routing, sondern Policy. Das bedeutet: Auch wenn ein Tunnel steht und beide Leitungen „up“ sind, kann eine Anwendung bewusst über einen bestimmten Pfad gezwungen werden (z. B. MPLS bevorzugt, Internet nur Backup), oder sie wird aufgrund SLA-Regeln dynamisch umgeschaltet. Viele Probleme entstehen durch Policy-Fehlannahmen.
App-Aware Routing und Klassifizierung
- DPI/App-ID: Erkennung anhand Signaturen; kann bei verschlüsselten Apps oder neuen Versionen ungenau sein.
- Port-/IP-basiert: einfacher, aber fehleranfällig bei modernen Cloud-Apps (CDNs, wechselnde IPs).
- DSCP-basiert: sehr stabil, wenn End-to-End konsistent markiert wird; scheitert, wenn DSCP im Netz „gewaschen“ wird.
Ein häufiger Stolperstein: Der Traffic wird als „Best Effort“ erkannt, obwohl er „Voice“ sein sollte. Dann greift die falsche SLA und die falsche Queue – und die Nutzer melden „VoIP ist schlecht“, obwohl die Leitung an sich ok ist.
DIA vs. Backhaul: Der Weg in die Cloud
- Direct Internet Access (DIA): Traffic geht lokal ins Internet. Vorteil: kürzere Wege, weniger Latenz.
- Backhaul: Traffic geht zum zentralen Hub/DC und erst dort ins Internet. Vorteil: zentrale Security/Compliance; Nachteil: mehr Latenz und mehr Abhängigkeiten.
- Typischer Fehler: DIA ist geplant, aber Policy zwingt Traffic trotzdem zum Hub (oder Bypass-Liste fehlt).
Segmentierung: VRF, Zonen und Overlays
Viele SD-WANs trennen Segmente (z. B. Corporate, Guest, Voice, OT) in eigenen VRFs oder Overlays. Wenn Segmentzuordnung oder Route-Leaks nicht konsistent sind, entstehen „einseitige“ Erreichbarkeiten oder schwarze Löcher.
- Ist der Flow im richtigen Segment/VRF?
- Existieren die erwarteten Routen im Segment (inkl. Default, Hub-Routen, Cloud-Routen)?
- Gibt es NAT-Regeln oder Firewall-Policies, die segmentabhängig greifen?
Failover testen: Hard Down ist nicht Brownout
Viele Teams testen Failover, indem sie einen Link ziehen. Das prüft „Hard Down“, aber nicht die häufigere Realität: Der Link ist up, aber qualitativ unbrauchbar (Loss, Jitter, Latenzspikes). Wenn Failover „nicht schaltet“, liegt es oft daran, dass die Schwellenwerte nicht passend sind oder dass der SD-WAN-Edge nur Link-Down erkennt, nicht aber SLA-Verletzungen.
Failover-Szenarien, die Sie wirklich testen sollten
- Link Down: Kabel/Interface down, Provider-PPP down, Tunnel down.
- Brownout: Paketverlust hoch, Latenz hoch, Jitter hoch – aber Link bleibt up.
- DNS-/SaaS-spezifische Ausfälle: Internet „da“, aber bestimmte Ziele nicht (Provider-Route, Peering-Problem).
- Controller/Orchestrator-Problem: Data Plane läuft, aber Policy Push/Telemetry gestört (wichtig für Recovery).
Thresholds, Hold-Down und Flapping vermeiden
- Zu aggressive Thresholds: führen zu häufigem Umschalten (Flapping), was Echtzeitdienste stärker stört als ein leicht schlechter Pfad.
- Zu laxe Thresholds: failover passiert zu spät oder gar nicht, obwohl User Experience schlecht ist.
- Hold-Down/Grace: verhindert Ping-Pong zwischen Pfaden bei kurzfristigen Spikes.
Der Standard-Workflow: SD-WAN Troubleshooting als Runbook
Dieser Ablauf ist herstellerneutral und eignet sich als Standardprozess im IT-Team. Der Fokus liegt auf Beweisführung: Sie wollen klar zeigen, ob das Problem im Underlay, in der Policy oder im Overlay liegt.
Schritt: Problem exakt definieren
- Betroffener Standort, betroffene Anwendung, betroffene Nutzergruppe, Zeitpunkt.
- Ist es Latenz/Jitter/Loss (Qualität) oder kompletter Ausfall (Reachability)?
- Ist es nur Cloud/SaaS oder auch private Apps?
Schritt: Pfadqualität objektiv messen
- Probes/Telemetry für beide Underlay-Pfade auslesen (Loss/Latenz/Jitter).
- Vergleich „jetzt“ vs. „normal“ (Baseline) herstellen.
- Wenn möglich: Messung pro Traffic-Klasse (DSCP/Policy) statt nur global.
Schritt: Policy-Match prüfen
- Welche Policy greift für diesen Flow (App-ID/Port/DSCP/Zone/Segment)?
- Welche SLA/Thresholds sind hinterlegt?
- Ist der Traffic auf DIA oder Backhaul geplant – und wird das so umgesetzt?
Schritt: Overlay-Status prüfen
- Stehen die Tunnel (IPsec, GRE, proprietär) stabil oder flappen sie?
- Gibt es Rekey- oder MTU-Probleme (große Pakete scheitern)?
- Existiert asymmetrisches Routing über unterschiedliche Hubs/Edges?
Wenn MTU/Fragmentierung eine Rolle spielt (z. B. bei Overlays), ist Path MTU Discovery nach RFC 1191 eine hilfreiche Vertiefung.
Schritt: Failover kontrolliert testen
- Testfälle definieren: VoIP-Call, TCP/443 zu SaaS, Zugriff auf interne App, DNS-Abfragen.
- Hard Down testen (Interface) und Brownout testen (Loss/Latency künstlich erhöhen, wenn möglich).
- Ergebnis dokumentieren: Umschaltzeit, Session-Abbruch ja/nein, Rückkehrverhalten (Failback) stabil?
Schritt: Logs und Paketmitschnitt nutzen, wenn nötig
- Edge-Logs: Policy decisions, SLA violations, tunnel events, BFD/keepalive events.
- Provider/Underlay: Interface errors, PPP events, modem events, WAN drops.
- Paketmitschnitt: Beweis für Loss/Resets/Handshake-Probleme; Einstieg: Wireshark Dokumentation.
Häufige Fehlerursachen und schnelle Fixes
Pfadqualität wird falsch gemessen oder falsch bewertet
- Ursache: Probes laufen in anderer QoS-Klasse als Echttraffic; Provider behandelt sie anders.
- Fix: Probes DSCP-markieren wie der relevante Traffic, oder class-based Probes nutzen.
App-Klassifizierung stimmt nicht
- Ursache: Verschlüsselung, neue App-Version, CDN-IPs, fehlende Signaturen.
- Fix: Klassifizierung auf DSCP/Ports/URLs ergänzen, Signaturen aktualisieren, testweise Policy auf Zielgruppen eingrenzen.
Policy zwingt Traffic auf den falschen Pfad
- Ursache: Backhaul-Policy greift wegen fehlender DIA-Ausnahmen; falsche Reihenfolge in Policy-Listen.
- Fix: Policy-Reihenfolge prüfen, DIA/Backhaul-Entscheidungen transparent machen, Ausnahme sauber dokumentieren.
Failover schaltet nicht bei Brownouts
- Ursache: Thresholds zu hoch oder nur Link-Down wird erkannt; Hold-Down verhindert Umschaltung.
- Fix: SLA-Thresholds pro App-Klasse definieren, Brownout-Detection aktivieren, Hold-Down sinnvoll dimensionieren.
Sessions brechen nach Umschaltung ab
- Ursache: Stateful Firewalls/NAT/Proxies im Pfad, asymmetrischer Rückweg, fehlende State-Synchronisierung.
- Fix: Symmetrische Pfade erzwingen, NAT-Punkte vereinheitlichen, HA/State-Sync prüfen, ECMP/Load-Balancing konsistent machen.
Tunnel stehen, aber bestimmte Ziele sind nicht erreichbar
- Ursache: Segment/VRF falsch, Route-Leaks fehlen, Default Route nicht im richtigen Segment, DNS/Proxy-Pfad anders.
- Fix: Segmentzuordnung prüfen, Routen im richtigen VRF verifizieren, Policies für DNS/Proxy/Cloud sauber definieren.
Messbarkeit und E-E-A-T: Wie Sie SD-WAN-Probleme sauber kommunizieren
Gerade bei Provider-Tickets oder interner Eskalation zählt Beweisführung. „Internet ist schlecht“ hilft niemandem. „Pfad A hat 3,2% Loss und 40 ms Jitter zwischen 10:05–10:30 Uhr, Pfad B ist stabil; Policy schaltet nicht, weil SLA-Loss-Threshold auf 5% steht“ ist hingegen verwertbar. Sammeln Sie systematisch:
- Zeitraum, Standort, betroffene App-Klasse, betroffener Pfad
- Loss/Latenz/Jitter als Zeitreihe (Baseline vs. Incident)
- Policy-Match und SLA-Thresholds, Umschaltentscheidungen (warum wurde nicht geschaltet?)
- Tunnel-/BFD-/Keepalive-Events, Rekey-Events
- Failover-Testresultate (Umschaltzeit, Session-Abbruch, Failback-Verhalten)
Best Practices: SD-WAN so betreiben, dass Troubleshooting schneller wird
- Baselines pflegen: Normalwerte pro Standort und Pfad (Latenz/Jitter/Loss) dokumentieren.
- SLA pro App-Klasse: Voice/Video/Business-Critical getrennt, nicht „one size fits all“.
- Policies transparent halten: klare Reihenfolge, klare Kommentare, standardisierte Namenskonventionen.
- Brownout-Tests etablieren: nicht nur Stecker ziehen; Failover und Failback regelmäßig kontrolliert testen.
- Segmentierung konsequent: VRFs/Overlays sauber, Route-Leaks bewusst und dokumentiert.
- Symmetrie sichern: stateful Security-Pfade so designen, dass Umschaltung keine out-of-state Effekte erzeugt.
- Monitoring mit Alerts: SLA-Verletzungen, Flapping, Tunnel-Instabilität, Policy-Anomalien.
Outbound-Links zur Vertiefung
- RFC 4301: IPsec Security Architecture (Overlay-Tunnel-Grundlagen)
- RFC 9293: TCP (Sessionverhalten bei Loss/Jitter und Umschaltungen)
- RFC 1191: Path MTU Discovery (Overlays, Fragmentierung, große Pakete)
- Wireshark Dokumentation (Mitschnitt zur Beweisführung)
- RFC 9110: HTTP Semantics (SaaS-Fehlerbilder, Statuscodes, Request-Verhalten)
Checkliste: SD-WAN Troubleshooting für Pfadqualität, Policies und Failover
- Problem definieren: Standort, App, Zeitpunkt, Symptom (Qualität vs. Ausfall), betroffene Nutzer.
- Pfadqualität messen: Loss/Latenz/Jitter pro Underlay-Pfad, idealerweise pro Traffic-Klasse.
- Policy-Match prüfen: Welche Regel greift? App-Erkennung korrekt? DSCP/Ports/Segmente passend?
- DIA vs. Backhaul verifizieren: Geht Cloud lokal raus oder unnötig über den Hub?
- Overlay prüfen: Tunnel stabil? Rekey/MTU/Fragmentierung? BFD/Keepalive Events?
- Failover testen: Hard Down und Brownout; Umschaltzeit, Session-Abbruch, Failback-Verhalten dokumentieren.
- Asymmetrie ausschließen: State/NAT/Firewall-Pfade konsistent? Keine out-of-state Drops nach Umschaltung?
- Logs/Mitschnitt nutzen: Policy-Entscheidungen, SLA-Verletzungen, Tunnel-Events, konkrete Flow-Beweise.
- Fix kontrolliert: Thresholds/Policies minimal ändern, danach identischer Testfall, Vorher/Nachher vergleichen.
- Prävention: Baselines, Klassen-SLAs, regelmäßige Brownout-Tests, Monitoring und klare Policy-Governance etablieren.
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.











