mTLS-Handshake-Fail: Schnelldiagnose für SRE

Red Snapper

1 month ago

Ein mTLS-Handshake-Fail: Schnelldiagnose für SRE gehört zu den häufigsten und gleichzeitig nervigsten Incidents in Service-Mesh- und Zero-Trust-Setups. Der Fehler tritt oft plötzlich auf: Requests gehen in Timeouts, gRPC bricht mit „UNAVAILABLE“ ab, HTTP liefert 503/525/502, und in Logs erscheinen kryptische TLS-Meldungen wie „handshake failure“, „certificate verify failed“ oder „no shared cipher“. Das Tückische: mTLS-Probleme wirken schnell wie „Netzwerk ist kaputt“, obwohl die Ursache meist in Identität, Zertifikatskette, Trust-Store, Zeitdrift oder Policy-Konfiguration liegt. Eine gute Schnelldiagnose trennt deshalb konsequent drei Fragen: (1) Scheitert der Handshake beim Verbindungsaufbau (Transport), (2) scheitert er bei der Zertifikatsprüfung (Trust/Identity), oder (3) scheitert er bei der Aushandlung (Version/Cipher/SNI/ALPN)? Wer diese Trennung sauber macht, kann in Minuten eingrenzen, ob ein einzelner Workload betroffen ist, ob ein Namespace- oder Mesh-Policy-Problem vorliegt oder ob ein zentrales Zertifikats-/Control-Plane-Thema eskaliert werden muss. Dieses Runbook-artige Vorgehen ist so geschrieben, dass es für Einsteiger verständlich bleibt, aber genügend Tiefe bietet, um auch komplexe Sidecar- und Mesh-Fehlkonfigurationen sicher zu diagnostizieren.

Was „mTLS Handshake Fail“ technisch bedeutet

Beim mutual TLS (mTLS) authentisieren sich Client und Server gegenseitig. Der TLS-Handshake beinhaltet daher zwei wesentliche Prüfungen: Der Client prüft das Serverzertifikat (inklusive Kette bis zur vertrauenswürdigen CA), und der Server prüft das Clientzertifikat (oder umgekehrt, je nach Rolle und Konfiguration). Ein Handshake-Fail bedeutet: Die TLS-Sitzung kommt nicht zustande. Das ist fundamental anders als „HTTP-Fehler“; ohne erfolgreichen Handshake gibt es meist keinen Anwendungsrequest, sondern nur einen Transportabbruch.

Transport-/Connect-Phase: TCP-Verbindung kommt nicht zustande oder wird sofort beendet.
TLS-Aushandlung: Version/Cipher/ALPN/SNI passt nicht, daher Abbruch.
Zertifikatsprüfung: Kette ungültig, CA nicht vertraut, SAN/Subject passt nicht, Zertifikat abgelaufen.
Policy-/Identity-Layer: Zertifikat ist gültig, aber Identität ist nicht autorisiert (manchmal sichtbar als TLS-Alert, manchmal als Proxy-Deny).

Für die TLS-Grundlagen ist die IETF-Spezifikation zu TLS 1.3 eine belastbare Referenz: RFC 8446 (TLS 1.3).

Erste 60 Sekunden: Blast Radius und Fehlerklasse bestimmen

Bevor Sie Details prüfen, müssen Sie wissen, wie groß das Problem ist. Diese drei Checks liefern in der Praxis den größten Zeitgewinn.

Scope: Betrifft es einen Pod, einen Deployment-Rollout, einen Namespace oder viele Services clusterweit?
Richtung: Scheitert Outbound (Client→Server) oder Inbound (Server akzeptiert Clients nicht)?
Zeitschnitt: Begann es nach einem konkreten Change (Upgrade, Policy-Change, Zertifikatsrotation, Nodepool-Wechsel)?

Wenn mehrere, unabhängige Services gleichzeitig Handshake-Fails zeigen, ist die Wahrscheinlichkeit hoch, dass es sich um ein zentrales Thema handelt: CA-Rotation, Trust-Store-Fehler, Control-Plane-Ausfall oder Zeitdrift. Wenn nur ein einzelner Service betroffen ist, ist es häufiger eine Fehlkonfiguration (SNI/Hostnames, Destination, Sidecar-Injection, falscher Port, falsche Policy).

Symptom-Mapping: Log-Meldung auf Ursache abbilden

mTLS-Probleme lassen sich häufig anhand weniger typischer Fehlermuster einordnen. Die genaue Wortwahl hängt von Proxy (z. B. Envoy), Library (OpenSSL, BoringSSL, Go TLS) und Anwendung ab, aber die Kategorien sind stabil.

„certificate verify failed“ / „unknown authority“: Trust-Store/CA fehlt oder falsche CA-Kette.
„certificate has expired“ / „not yet valid“: Zertifikatsgültigkeit oder Zeitdrift.
„bad certificate“ / „handshake failure“: oft Clientzertifikat abgelehnt, SAN/Identity passt nicht oder Policy erzwingt mTLS, aber Client liefert nichts.
„no shared cipher“ / „protocol version“: TLS-Version/Cipher-Suite inkompatibel (z. B. TLS 1.0/1.1 vs. 1.2/1.3, FIPS-Profil).
„wrong version number“: häufig falscher Port/Protokoll-Mismatch (TLS auf HTTP-Port oder umgekehrt).
„EOF“ / „connection reset by peer“ während Handshake: Gegenstelle bricht früh ab; kann Policy, SNI-Routing oder Proxy-Konfig sein.

Wenn Envoy im Spiel ist, lohnt sich ein Blick in die Envoy-Dokumentation zu TLS-Konfiguration und Fehlern: Envoy TLS / SSL Overview.

Schnelltest 1: Ist es wirklich mTLS oder schon TCP/Netzwerk?

Ein häufiger Fehler ist, mTLS zu debuggen, obwohl die TCP-Verbindung instabil ist. Prüfen Sie deshalb zuerst: Kommt überhaupt eine stabile TCP-Verbindung zustande? mTLS-Handshakes sind sensibel für Paketverlust, MTU-Probleme und kurze Idle-Timeouts, aber wenn TCP schon nicht funktioniert, ist TLS nur das erste sichtbare Opfer.

Node-/Zone-Korrelation: Tritt der Fehler nur auf bestimmten Nodes auf, ist Underlay/Node wahrscheinlicher.
Retransmits/Timeouts: Steigen TCP-Retransmits oder P99-Latenzen zeitgleich?
MTU-Fallen: „Small works, large fails“ kann auch Handshake treffen, wenn Zertifikatsketten größer sind oder PMTUD blockiert ist.

Für Hintergründe zur Path-MTU-Discovery (wichtig bei Tunneln/Encapsulation) sind diese RFCs relevant: RFC 1191 (PMTUD IPv4) und RFC 8201 (PMTUD IPv6).

Schnelltest 2: Zertifikatsgültigkeit und Zeitdrift prüfen

Zeit ist eine der unterschätztesten Ursachen für mTLS-Handshake-Fails. Wenn ein Node oder ein Container eine falsche Systemzeit hat, werden Zertifikate als „not yet valid“ oder „expired“ bewertet, obwohl sie objektiv korrekt sind. In Cloud- und Kubernetes-Umgebungen kann Zeitdrift durch NTP-Probleme, VM-Suspend/Resume, Host-Clock-Issues oder isolierte Netzsegmente entstehen.

Zeitdrift-Indikator: Fehler tritt node-spezifisch auf oder verschwindet nach Pod-Neustart auf anderem Node.
„not yet valid“: fast immer Uhrzeitproblem oder falsche Zeitzone/Clock.
„expired“: echte Zertifikatsabläufe oder Clock ahead.

Wenn Sie Zertifikatsrotationen im Mesh nutzen, prüfen Sie außerdem, ob die Rotationsintervalle und die maximal tolerierte Clock-Skew in Ihrer Umgebung realistisch sind.

Schnelltest 3: CA-Kette und Trust-Store – das häufigste Root-Cause-Feld

In mTLS-Umgebungen scheitert der Handshake sehr oft daran, dass eine Seite der anderen CA nicht vertraut. Typische Auslöser sind CA-Rotation, falsche Bundle-Reihenfolge, fehlende Intermediate-CAs oder ein Workload, der einen eigenen Trust-Store mitbringt und den Mesh-Trust nicht kennt.

CA-Rotation: Ein Teil des Systems nutzt bereits die neue CA, ein anderer Teil vertraut nur der alten CA.
Intermediate fehlt: Server liefert keine vollständige Kette, Client kann nicht bis zur Root validieren.
Trust-Store Drift: Einige Images/Sidecars enthalten veraltete CA-Bundles oder überschreiben sie.
Private CA vs. Public CA: Verwechslung, wenn interne Services private CA nutzen, aber Client erwartet Public CA.

Als solide Grundlage zur X.509-Zertifikatsprüfung ist die IETF-Spezifikation hilfreich: RFC 5280 (X.509 PKI).

Häufiger Klassiker: SAN/Hostname passt nicht (SNI, Service-Namen, Gateways)

mTLS bricht auch dann, wenn das Serverzertifikat nicht zum erwarteten Namen passt. In Meshes spielt hier oft SNI (Server Name Indication) eine Rolle, weil Proxies anhand des Hostnamens routen und weil Zertifikate häufig auf Service-DNS-Namen ausgestellt sind. Typische Fälle:

Falscher Zielname: Client ruft „service“ auf, Zertifikat ist aber nur für „service.namespace.svc.cluster.local“ gültig.
Gateway/VirtualHost: Ein Gateway erwartet SNI „api.example.com“, Client sendet aber etwas anderes.
Headless/Pod-IPs: Zugriff per IP statt DNS-Name führt häufig zu Name-Mismatch.
Multi-Cluster: Unterschiedliche Trust Domains oder unterschiedliche Service-DNS-Suffixe.

Wenn Sie Kubernetes-DNS-Namen und Service-Auflösung sauber verstehen, hilft diese Referenz: DNS for Services and Pods.

Policy-Falle: mTLS ist erzwungen, aber Client liefert kein Zertifikat

In vielen Meshes kann mTLS „STRICT“ erzwungen werden. Wenn dann ein Client ohne Sidecar oder mit deaktivierter mTLS-Funktionalität kommuniziert, erhält der Server kein Clientzertifikat und bricht ab. In Logs wirkt das oft wie ein generischer Handshake-Fail.

Indikator: Nur bestimmte Clients betroffen (z. B. Jobs, CronPods, Legacy-Workloads, Debug-Pods).
Typische Ursache: Sidecar-Injection fehlt, wurde deaktiviert oder ist fehlerhaft.
Typische Folge: Inbound-Handshake bricht ab, obwohl Underlay stabil ist.

Wenn Sie Istio nutzen, ist die Unterscheidung zwischen PERMISSIVE und STRICT zentral. Als Einstieg in die Security- und mTLS-Konzepte ist die Istio-Dokumentation geeignet: Istio Security Concepts.

Protokoll-/Port-Mismatch: „wrong version number“ und ähnliche Klassiker

Viele TLS-Fehler sind in Wahrheit „Sie sprechen das falsche Protokoll auf dem falschen Port“. Beispielsweise wird auf Port 80 Klartext-HTTP erwartet, aber der Client spricht TLS. Oder ein Proxy lauscht auf einem mTLS-Port, während der Client plain TCP sendet. Diese Fälle sind schnell lösbar, wenn man sie erkennt.

„wrong version number“: häufig TLS auf non-TLS Endpoint.
„first record does not look like a TLS handshake“: ebenfalls Protokoll-Mismatch.
„unexpected EOF“: Gegenstelle schließt sofort, weil sie die ersten Bytes nicht versteht.

Im Mesh-Kontext entsteht das häufig durch falsche Service-Ports, falsche TargetPorts, Sidecar-Listener-Konfig oder eine Migration von HTTP zu HTTPS ohne konsistente Anpassung der Routen.

Sidecar-spezifische Ursachen: Ressourcen, Config-Drift und Upgrades

Wenn Sidecars (z. B. Envoy) zu wenig CPU oder Speicher bekommen, steigt Latenz, Queues wachsen, und Handshakes können aus Timinggründen scheitern oder von Timeouts abgebrochen werden. Ebenso problematisch sind Konfigurationsdrift und Upgrade-Mismatches (Control Plane vs. Data Plane).

CPU-Throttling: Sidecar kann Handshakes nicht schnell genug abarbeiten, besonders bei hohen Connection-Raten.
Memory Pressure/OOM: Sidecar restarts, Verbindungen brechen, Handshakes schlagen sporadisch fehl.
Konfigurationsdrift: Nicht alle Pods haben dieselbe Policy/Listener/Cluster-Konfiguration.
Upgrade-Mismatch: neue Cipher/Version-Defaults oder neue Anforderungen an SAN/Trust Domain.

Wenn Sie Envoy einsetzen, sind die Betriebs- und Konfigurationsgrundlagen dort gut beschrieben: Envoy Operations.

App-spezifische Ursachen: TLS-Libraries, Connection Pools und aggressive Timeouts

Auch wenn mTLS häufig „Mesh-Sache“ ist, darf die App-Schicht nicht ignoriert werden. Typische App-Ursachen, die als Handshake-Fail erscheinen:

Eigene TLS-Stacks: Manche Apps terminieren TLS selbst oder nutzen eigene Trust-Stores, die nicht mit Mesh-mTLS kompatibel sind.
Connection Pool Reuse: Wiederverwendung von Verbindungen über unerwartete Zeiträume, während Zertifikate rotiert werden.
Zu aggressive Timeouts: App bricht den Handshake ab, bevor Proxy/Server fertig ist.
ALPN/HTTP2: gRPC/HTTP2 erfordert korrekte ALPN-Aushandlung; falsche Einstellungen wirken wie TLS-Problem.

Eine pragmatische Diagnose ist: Wenn nur ein bestimmter Client (eine Sprache/Library) betroffen ist, und alle anderen Clients funktionieren, ist die App-Library-Konfiguration oft der Schlüssel.

10-Minuten-Diagnosepfad: Schrittfolge für SRE im Incident

Die folgende Schrittfolge ist bewusst kurz, wiederholbar und auf schnelle Eingrenzung optimiert. Sie arbeitet von „gröbster“ zu „spezifischster“ Hypothese.

Schritt 1: Blast Radius klären (Pod/Deployment/Namespace/clusterweit; node-/zone-spezifisch?).
Schritt 2: Fehlerklasse bestimmen (Timeout/Reset vs. verify failed vs. no shared cipher vs. wrong version).
Schritt 3: Zeit prüfen (Indikatoren für not yet valid/expired; node-spezifische Häufung).
Schritt 4: Trust-Store/CA prüfen (Rotationen, Intermediates, unterschiedliche CAs zwischen Komponenten).
Schritt 5: Identität/Hostname prüfen (SNI, SAN, Service-DNS-Namen, Zugriff per IP).
Schritt 6: Policy prüfen (mTLS strict/permissive, Authorization, Sidecar-Injection vorhanden?).
Schritt 7: Sidecar-Health prüfen (Restarts, CPU/Memory, config push, versions).
Schritt 8: App-spezifische Kandidaten prüfen (TLS-Library, Pooling, ALPN, Timeouts).

Sichere Mitigation: Stabilisieren, ohne Root Cause zu verwischen

Bei mTLS-Incidents ist die Versuchung groß, „mTLS abzuschalten“. Das kann in manchen Organisationen als Break-Glass erlaubt sein, ist aber sicherheitlich kritisch und sollte nur mit klarer Freigabe und enger Begrenzung erfolgen. Es gibt häufig mildere Maßnahmen, die Stabilität zurückbringen, ohne die Security-Schicht aufzuheben.

Canary/Traffic Shifting: Betroffene Workloads auf gesunde Nodes/Versionen verschieben oder Traffic auf gesunde Backends leiten.
Sidecar-Ressourcen erhöhen: CPU/Memory für Proxy anheben, wenn Handshakes unter Last kippen.
Retry-Stürme reduzieren: Retries begrenzen, Backoff/Jitter aktivieren, um Überlastkaskaden zu stoppen.
Trust-Store vereinheitlichen: CA-Bundles konsistent ausrollen; Intermediates korrekt liefern.
Temporär PERMISSIVE (gezielt): Nur für klar abgegrenzte Services/Namespaces, mit Logging und kurzer Laufzeit.

Ein simples Risiko-Maß für Break-Glass-Entscheidungen

Wenn Sie eine temporäre Lockerung erwägen, hilft eine schnelle, explizite Risikobetrachtung. Ein praktikables Modell ist, Risiko als Produkt aus Auswirkung und Wahrscheinlichkeit zu denken:

Risiko = Impact × Likelihood

Das ersetzt keine Security-Freigabe, zwingt aber zu einer klaren Formulierung: Was ist der Schaden, wenn mTLS temporär gelockert wird, und wie wahrscheinlich ist Missbrauch im konkreten Fenster?

Prävention: Welche Kontrollen mTLS-Handshake-Fails deutlich seltener machen

Die besten SRE-Teams reduzieren die Häufigkeit von mTLS-Handshakes-Fails mit wenigen, konsequenten Standards. Viele dieser Kontrollen sind „langweilig“, aber sehr effektiv.

Zeit-Integrität: NTP zuverlässig, Monitoring auf Clock-Skew, node-spezifische Drift-Alarme.
Geplante CA-Rotation: Overlap-Phasen (alte und neue CA parallel), klare Rollout-Reihenfolge und Validierungschecks.
Trust-Store-Management: Einheitliche CA-Bundles, keine „Hidden Trust Stores“ in Images ohne Review.
Standardisierte Service-Namen: Klare Konventionen für SAN/SNI (vollqualifizierte Cluster-DNS-Namen).
Policy-Tests: Automatisierte Tests für STRICT/PERMISSIVE, Sidecar-Injection und Authorization vor Prod-Rollouts.
Sidecar-Sizing: Ressourcenprofile für Proxies, besonders für High-Connection-Rate-Workloads.

Outbound-Quellen für vertiefende Informationen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.