SSL Inspection Debugging: Zertifikate, Apps und Breakage Patterns

VPN Troubleshooting gehört zu den häufigsten und gleichzeitig frustrierendsten Aufgaben im Netzwerkbetrieb: „Der Tunnel ist up, aber nichts geht“, „Es geht kurz und bricht dann ab“ oder „Nachts um 02:00 Uhr flappen die Verbindungen“ sind klassische Meldungen. Besonders bei IPsec-VPNs ist das Fehlerbild oft mehrdeutig, weil mehrere Ebenen zusammenspielen: IKE Phase 1/2 (bei IKEv1) beziehungsweise IKE_SA und CHILD_SA (bei IKEv2), Rekey-Mechaniken, NAT Traversal (NAT-T), Routing/Policy-Selektoren, DPD/Keepalives und nicht zuletzt MTU/MSS-Themen durch Kapselungs-Overhead. Eine Konfiguration kann dabei „fast richtig“ sein: Der Aufbau gelingt, aber Rekey scheitert; NAT-T wird zwar erkannt, aber UDP/4500 ist gefiltert; die Phase-2-Selektoren passen, aber nur in eine Richtung; oder große Pakete droppen wegen PMTUD-Blackholes, während kleine Pings noch funktionieren. Professionelles VPN Troubleshooting bedeutet deshalb, nicht wild an Parametern zu drehen, sondern eine saubere Beweiskette aufzubauen: Erreichbarkeit der Peers, IKE-Aushandlung, SA-Status, Datenpfad, Rekey-Events und MTU-Realität. Dieser Artikel zeigt Ihnen genau diese Methodik – mit Fokus auf IKE Phase 1/2, Rekey, NAT-T und MTU – so strukturiert, dass Sie daraus ein praxistaugliches Runbook für On-Call und Betrieb ableiten können.

Table of Contents

Mentales Modell: Control Plane vs. Data Plane im VPN

Bei IPsec-VPNs sind Control Plane und Data Plane strikt zu trennen. Die Control Plane ist IKE: Hier handeln beide Seiten Kryptoparameter, Identitäten, Authentifizierung und Schlüsselmaterial aus. Die Data Plane ist ESP (oder seltener AH): Hier werden Nutzdaten verschlüsselt und transportiert. Die wichtigsten Konsequenzen:

  • IKE up ≠ Datenverkehr ok: IKE kann erfolgreich sein, obwohl keine passenden CHILD_SAs für den Traffic existieren (Selektoren/Policies falsch).
  • Traffic ok ≠ stabil: Der Tunnel kann initial funktionieren, aber bei Rekey/DPD/NAT-Mapping-Timeouts später ausfallen.
  • „Ping geht“ kann täuschen: Kleine ICMP-Pakete funktionieren, während große TCP-Flows wegen MTU/MSS scheitern.

Als technische Basis für IKEv2 ist RFC 7296 (IKEv2) eine gute Referenz; für IPsec-Architektur insgesamt RFC 4301.

Begriffe und Zuordnung: IKE Phase 1/2 vs. IKEv2 SAs

In der Praxis begegnen Ihnen beide Begriffe, je nach Plattform:

  • IKEv1: Phase 1 baut die IKE SA auf (ISAKMP SA), Phase 2 baut IPsec SAs (Quick Mode) für Datenverkehr auf.
  • IKEv2: Es gibt eine IKE_SA (Kontrollkanal) und eine oder mehrere CHILD_SAs (Datenkanäle, typischerweise ESP).

Für Troubleshooting ist weniger die Begriffswelt entscheidend, sondern die Frage: Ist die Kontrollverbindung stabil, und existiert für den betroffenen Traffic eine passende, aktive Daten-SA?

Die häufigsten Fehlerbilder im VPN-Betrieb

  • Kein Tunnelaufbau: Peer nicht erreichbar, falsche IDs/PSK/Zertifikate, Proposal-Mismatch, UDP/500 blockiert.
  • IKE steht, aber kein Traffic: Selektoren/Traffic Selector falsch, Routing/PBR falsch, NAT-Policy kollidiert, „Proxy-ID mismatch“ (IKEv1).
  • Nur eine Richtung funktioniert: Asymmetrisches Routing, fehlende Policy in Gegenrichtung, NAT/Firewall state, Reverse Path Filter (RPF) am Router.
  • Flaps bei festen Intervallen: Rekey scheitert, DPD/Keepalive-Mismatch, NAT-Mapping läuft ab.
  • Kleine Pakete ok, große brechen: MTU/PMTUD-Blackhole, MSS nicht angepasst, Fragmentation wird gedroppt.

Methodik: VPN Troubleshooting in der richtigen Reihenfolge

Die folgende Reihenfolge hat sich bewährt, weil sie schnell die Fehlerdomäne trennt und typische Irrwege vermeidet:

  • 1) Underlay prüfen: IP-Erreichbarkeit Peer↔Peer, Routing stabil, keine Filter auf UDP/500/4500, keine massiven Loss/Jitter.
  • 2) IKE-Aushandlung prüfen: Proposals, Auth, IDs, Zertifikatspfad, Fehlercodes/Logs.
  • 3) CHILD_SA/Phase-2 prüfen: Selektoren/TS, ESP-Parameter, Lifetimes, PFS, Anti-Replay.
  • 4) NAT-T prüfen: NAT erkannt? Umschaltung auf UDP/4500? NAT-Keepalives? UDP-Timeouts in Firewalls?
  • 5) MTU/MSS prüfen: effektive MTU nach Overhead, PMTUD-Signale, MSS-Clamping.
  • 6) Rekey analysieren: Welche Seite rekeyt? Kommt es zu SA-Overlap? Werden alte SAs sauber gelöscht?

Underlay-Checks: Ohne sauberen Transport ist jedes IKE Debugging zweitrangig

Bevor Sie IKE-Parameter anfassen, beweisen Sie, dass das Underlay stabil ist. Viele VPN-Probleme sind letztlich Transportprobleme: Ein Provider filtert UDP, ein NAT-Gateway setzt UDP-Mappings zu aggressiv zurück, oder ein Pfad hat Microbursts, die IKE-Keepalives droppen.

  • Erreichbarkeit: Peer-IP erreichbar (ICMP kann helfen, ist aber kein Beweis für UDP).
  • Portpfad: UDP/500 und (bei NAT-T) UDP/4500 müssen end-to-end funktionieren.
  • Pfadstabilität: Loss/Jitter können IKE-Retransmissions erzeugen und Rekey empfindlich machen.
  • Asymmetrie: Hinweg über Firewall A, Rückweg über Firewall B ohne State-Sync → sporadische Drops.

IKE Phase 1 / IKE_SA Debugging: Proposals, Identitäten, Authentifizierung

Wenn der Tunnel gar nicht aufkommt oder sofort wieder fällt, ist die IKE-Ebene zuerst zu prüfen. Typische Ursachen sind Mismatches in Proposals (Verschlüsselung, Integrität, DH-Gruppe), falsche IDs, PSK-Fehler oder Zertifikatsprobleme.

Proposal-Mismatch: „No proposal chosen“ ist fast immer eindeutig

  • Indiz: Logs zeigen „no proposal chosen“, „policy mismatch“ oder ähnliche Meldungen.
  • Nachweis: Vergleich der IKE-Parameter beider Seiten: Encryption, Integrity, PRF (IKEv2), DH Group, IKE Version.
  • Fix-Richtung: Gemeinsame Schnittmenge definieren, Legacy-Algorithmen vermeiden, aber Kompatibilität sicherstellen.

IDs und Authentication: PSK stimmt, aber Identity nicht

Viele Plattformen unterscheiden zwischen Peer-Adresse (wohin ich sende) und IKE-Identität (wer ich bin / wen ich erwarte). Bei dynamischen IPs, FQDN-IDs oder mehreren Tunneln zu einem Peer ist das eine häufige Fehlerquelle.

  • Indiz: Auth failed, ID mismatch, „no matching peer config“.
  • Nachweis: IKE-Logs zeigen die präsentierte ID (FQDN, IP, DN aus Zertifikat).
  • Fix-Richtung: IDs explizit konfigurieren, Zertifikats-SAN/CN korrekt, PSK an richtige Peer-Definition binden.

Zertifikate: Kette, Zeit, Revocation

  • Indiz: Fehler bei Zertifikatsprüfung, „unknown CA“, „expired“, „revoked“.
  • Nachweis: Zertifikatspfad und Truststore prüfen, Uhrzeit/NTP sicherstellen.
  • Fix-Richtung: Intermediates nachinstallieren, CRL/OCSP-Erreichbarkeit, Laufzeiten überwachen.

IKE Phase 2 / CHILD_SA Debugging: Traffic Selectors, PFS, ESP-Parameter

Wenn IKE up ist, aber kein Traffic fließt, liegt die Ursache häufig in Phase 2 (IKEv1) beziehungsweise in den CHILD_SAs (IKEv2). Der Klassiker ist ein Selector-Mismatch: Die eine Seite erwartet 10.0.0.0/24 ↔ 192.168.0.0/24, die andere 10.0.0.0/16 ↔ 192.168.0.0/24 – der SA-Aufbau scheitert oder wird aufgebaut, matcht aber den realen Traffic nicht.

Traffic Selectors/Proxy-IDs: Matcht der SA den echten Traffic?

  • Indiz: IKE steht, aber Counters für ESP bleiben 0; Logs zeigen „TS unacceptable“ oder „proxy identities not supported“.
  • Nachweis: TS/Proxy-ID beider Seiten vergleichen, inklusive Protocol/Port, falls eingeschränkt.
  • Fix-Richtung: Selektoren konsistent, möglichst präzise; bei dynamischen Netzen Route-based VPN nutzen (VTI) statt Policy-based, wenn sinnvoll.

PFS und Lifetimes: „Geht“, aber nur bis zum Rekey

  • Indiz: Tunnel funktioniert initial, flapped bei Rekey-Zeitpunkten.
  • Nachweis: PFS (DH Group) und Lifetimes (Seconds/KB) in Phase-2/CHILD_SA vergleichen.
  • Fix-Richtung: Lifetimes harmonisieren (nicht identisch zwingend, aber kompatibel), PFS konsistent oder bewusst deaktiviert (Designentscheidung).

Anti-Replay und Sequenzprobleme

Bei Packet Reordering (z. B. ECMP) oder bei sehr burstigem Verkehr kann Anti-Replay false positives erzeugen, insbesondere wenn Implementation/Window nicht passt. Das ist seltener, aber in High-Speed-Umgebungen relevant.

  • Indiz: ESP Drops wegen Replay, obwohl Underlay scheinbar ok.
  • Nachweis: Counter/Logs für Replay-Drops, Pfad-ECMP/Reordering prüfen.
  • Fix-Richtung: Replay-Window anpassen oder Pfadstabilität verbessern; Anti-Replay nicht leichtfertig deaktivieren.

NAT-T: Wenn NAT im Pfad ist, gelten andere Regeln

NAT Traversal (NAT-T) ist der Mechanismus, der IPsec durch NAT-Geräte bringt. Statt ESP direkt (IP-Protokoll 50) zu transportieren, wird ESP in UDP/4500 gekapselt. Viele Probleme entstehen, weil NAT erkannt wird, aber UDP/4500 nicht zuverlässig durchkommt oder NAT-Mappings zu schnell auslaufen. Hintergrund zu NAT-T liefern RFC 3947 und RFC 3948.

Wie NAT-T Fehlerbilder aussehen

  • IKE startet, bricht aber nach Umschaltung: UDP/500 geht, UDP/4500 wird gefiltert.
  • Tunnel idle ok, unter Traffic bricht: NAT-Mapping/UDP-Timeout zu klein, Keepalives fehlen.
  • Nur eine Seite hinter NAT: Peer-ID/Addressing-Erwartungen passen nicht, oder NAT-Device macht „Symmetric NAT“ und erschwert Stabilität.

NAT-T Nachweise, die wirklich helfen

  • Portbeobachtung: Sehen Sie IKE/ESP über UDP/4500 im Capture?
  • Keepalive-Verhalten: Gibt es NAT-Keepalives/DPD, und sind Intervalle passend zu NAT-Timeouts?
  • Stateful Middleboxes: Firewalls/NAT-Gateways im Pfad müssen UDP/4500 stateful erlauben; einige Geräte haben aggressive UDP-Aging-Defaults.

Rekey Debugging: Der Tunnel ist „up“, aber fällt periodisch

Rekey ist der häufigste Grund für periodische VPN-Ausfälle. Dabei ist wichtig: Rekey betrifft sowohl die IKE-SA als auch die CHILD_SAs. Viele Plattformen rekeyn asynchron, und während des Übergangs existieren kurzzeitig mehrere SAs parallel (Overlap). Fehler entstehen, wenn Overlap nicht sauber funktioniert, wenn eine Seite alte SAs zu früh löscht oder wenn Lifetimes/Kollisionen zu häufig rekeyn (Rekey-Storm).

Typische Rekey-Fehlerbilder

  • Flap nach exakt X Minuten: Lifetime/DPD-Intervalle, Rekey-Zeitpunkt ist reproduzierbar.
  • Einseitiger Rekey führt zu Blackhole: Neue SA ist da, aber Traffic bleibt auf alter SA gebunden, die Gegenseite schon gelöscht hat.
  • CPU/Control Plane Peaks: Viele Tunnels rekeyn gleichzeitig; IKE-Daemon ist überlastet, Retransmissions steigen.

Rekey sauber nachweisen

  • SA-Timeline: Wann wird welche SA erstellt/gelöscht? (IKE_SA vs. CHILD_SA getrennt betrachten.)
  • Initiator/Rolle: Welche Seite initiiert Rekey? Ist „rekey margin“ sinnvoll?
  • Overlap-Fähigkeit: Unterstützen beide Seiten parallele SAs für denselben Traffic Selector?

Fix-Richtung bei Rekey-Problemen

  • Lifetimes harmonisieren: Nicht unnötig kurz; Rekey-Last reduziert Stabilität.
  • Staggering: Rekeys über Zeit verteilen (jitter), besonders bei vielen Tunneln.
  • DPD/Keepalive abgestimmt: DPD nicht so aggressiv, dass kurzzeitige Jitter-Peaks einen Tunnel „töten“.
  • Logs/Telemetry: Rekey-Events als Standard-KPI, um wiederkehrende Muster früh zu sehen.

MTU und MSS: Der unterschätzte Grund für „Tunnel up, Apps kaputt“

IPsec fügt Overhead hinzu (ESP, ggf. UDP/4500, ggf. zusätzlicher IP-Header). Dadurch sinkt die effektive MTU für Nutzdaten. Wenn Pfade keine größeren Frames zulassen oder PMTUD-Signale (ICMP) gefiltert werden, entstehen Blackholes: kleine Pakete gehen, große brechen. Das wirkt wie ein Firewall- oder Applikationsproblem, ist aber MTU/PMTUD. PMTUD-Hintergrund: RFC 1191 (IPv4) und RFC 8201 (IPv6).

MTU-Fehlerbilder

  • HTTPS/TLS hängt, Ping ok: kleine ICMP-Pakete gehen, größere TLS-Records/Segmente droppen.
  • Nur große Downloads/Uploads brechen: Bulk-Traffic triggert Fragmentation/PMTUD.
  • Nur über NAT-T schlecht: zusätzlicher UDP-Overhead verschärft MTU-Probleme.

Nachweise für MTU-Probleme

  • Gezielte Größen-Tests: schrittweise größere Pakete testen (ohne Fragmentation, soweit möglich).
  • Capture: Sehen Sie Fragmentation, ICMP „Frag Needed“/„Packet Too Big“ oder Retransmissions?
  • Counter: Drops/Fragment Counters am Tunnel-Interface oder an Middleboxes.

Behebung: MTU/MSS pragmatisch und stabil

  • MSS-Clamping: TCP MSS so setzen, dass TCP keine zu großen Segmente erzeugt (wirkt schnell, ist aber TCP-spezifisch).
  • MTU korrekt setzen: Tunnel-Interface MTU an Overhead anpassen; Unterlay-MTU erhöhen, wenn möglich.
  • PMTUD ermöglichen: ICMP-Messages für PMTUD gezielt erlauben, statt „ICMP generell blocken“.

„Nur eine Richtung“: VPN-spezifische Ursachen für asymmetrisches Verhalten

Einseitige Probleme entstehen häufig, wenn Policies nur in einer Richtung existieren, wenn Routing/PBR den Rückweg am Tunnel vorbei leitet oder wenn NAT vor dem Tunnel auf einer Seite anders greift als erwartet.

  • Policy-based VPN: Selektoren müssen in beide Richtungen passen; sonst wird nur eine Richtung verschlüsselt.
  • Route-based VPN (VTI): Routing in der VRF entscheidet; falsche Route/Metric führt zu Rückweg außerhalb des Tunnels.
  • Firewall-State: Wenn der Rückweg über eine andere Firewall-Instanz läuft, fehlt State und Pakete droppen.

Evidence Pack: Was Sie im VPN-Incident immer sammeln sollten

  • Peer-Daten: öffentliche Peer-IPs, NAT-Situation, verwendete Ports (500/4500), Zeitpunkt des Fehlers.
  • IKE-Daten: IKEv1/v2, Proposals, Auth-Methode (PSK/Cert), IDs, Fehlermeldungen.
  • CHILD_SA-Daten: Traffic Selectors/Proxy-IDs, PFS, Lifetimes, ESP-Cipher/Integrity, Rekey-Zeitpunkte.
  • Data Plane: ESP/UDP-4500 Counters, Drops, Replay-Drops, Bytes in/out.
  • MTU/MSS: Tunnel-MTU, MSS-Policy, PMTUD-Indizien, „klein geht, groß nicht“ Nachweis.
  • Pfad/Asymmetrie: Routing/ECMP/PBR, HA-Cluster-Status, Return-Path-Beobachtung.

Runbook-Baustein: VPN Troubleshooting in 15 Minuten

  • Minute 0–3: Scope definieren: Welche Sites/Subnetze, welcher Tunnel, seit wann? Underlay prüfen: UDP/500 erreichbar, bei NAT-T auch UDP/4500.
  • Minute 3–6: IKE prüfen: IKE_SA/Phase-1 up? Wenn nein: Proposals/IDs/Auth/Certs. Fehlercode sichern.
  • Minute 6–9: CHILD_SA/Phase-2 prüfen: existiert eine SA für den betroffenen Traffic? TS/Proxy-IDs korrekt? Bytes/Counters steigen?
  • Minute 9–12: Rekey/NAT-T prüfen: tritt der Fehler periodisch auf? Rekey-Events korrelieren? NAT-Keepalives/DPD passend? UDP-Timeouts im Pfad?
  • Minute 12–15: MTU/MSS prüfen: große Pakete testen, PMTUD-Blackhole ausschließen. Danach minimalen Fix anwenden (Selectors/Lifetimes/NAT-T/MTU) und mit demselben Flow verifizieren.

Nachhaltige Stabilisierung: Best Practices für robuste IPsec-VPNs

  • Standards und Baselines: Ein gemeinsamer Satz an Proposals (IKE/ESP), dokumentiert und automatisiert geprüft.
  • Rekey-Strategie: Lifetimes sinnvoll, Rekeys gestaffelt, Overlap getestet, Rekey-Events monitorbar.
  • NAT-T bewusst betreiben: UDP/4500 end-to-end freigeben, Keepalive/DPD passend zu Middlebox-Timeouts.
  • MTU-Disziplin: Overhead einkalkulieren, MSS-Clamping dokumentieren, PMTUD-ICMP gezielt erlauben.
  • Observability: SA-Counts, Rekey-Rate, DPD-Drops, ESP Bytes/Drops, CPU/Offload-Status als Standard-Dashboards.
  • Symmetrie und Routing-Governance: Return-Path über dieselbe Tunnelinstanz, PBR/ECMP nur mit getesteten Failure-Modes.

Weiterführende Quellen für Standards und Praxis

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

  • Netzwerkdesign & Topologie-Planung

  • Router- & Switch-Konfiguration (Cisco IOS)

  • VLAN, Inter-VLAN Routing

  • OSPF, RIP, EIGRP (Grundlagen & Implementierung)

  • NAT, ACL, DHCP, DNS-Konfiguration

  • Troubleshooting & Netzwerkoptimierung

  • Packet Tracer Projektentwicklung & Dokumentation

  • CCNA Lern- & Praxisunterstützung

Lieferumfang:

  • Konfigurationsdateien

  • Packet-Tracer-Dateien (.pkt)

  • Netzwerkdokumentation

  • Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

 

Related Articles