TLS-Telemetrie: Handshake-Zeit, Failure Rate und Cert-Metriken

Red Snapper

1 month ago

TLS-Telemetrie: Handshake-Zeit, Failure Rate und Cert-Metriken ist ein zentraler Baustein, wenn Sie Verfügbarkeit und Performance moderner Plattformen zuverlässig betreiben möchten. In Microservice-Architekturen, Kubernetes-Clustern und Service-Mesh-Umgebungen wird ein großer Teil des Traffics über TLS oder mTLS abgesichert. Damit verschiebt sich ein Teil der „gefühlten“ Latenz und ein Teil der Ausfallursachen aus der Applikation in die Transport- und Sicherheits-Schicht. Wenn TLS langsam wird oder Handshakes fehlschlagen, wirkt das im Monitoring oft wie ein generisches Netzwerkproblem: Connect-Timeouts, 502/503, sporadische Retries, gebrochene Traces oder plötzlich steigende Error Rates. Ohne gezielte TLS-Telemetrie ist es dann schwer zu unterscheiden, ob die Ursache in CPU-Sättigung, Zertifikatsrotation, falschen Cipher Suites, einem Load Balancer Idle Timeout, einer mTLS-Policy oder einem Upstream-Problem liegt. Dieser Artikel zeigt, wie Sie TLS-Telemetrie sinnvoll aufbauen: Welche Kennzahlen wirklich aussagekräftig sind, wie Sie Handshake-Zeit und Failure Rate korrekt messen und segmentieren, welche Zertifikatsmetriken im Betrieb unverzichtbar sind und wie Sie Dashboards und Alerts gestalten, die im Incident schnell Antworten liefern – ohne unnötige Komplexität und ohne „Metric Noise“.

Warum TLS-Telemetrie heute Pflicht ist

TLS ist nicht nur „Verschlüsselung“, sondern ein eigener Ablauf mit mehreren Schritten: Aushandlung von Version und Cipher Suites, Zertifikatsprüfung, Schlüsselableitung, optional Client-Zertifikat (mTLS), Session Resumption und anschließend der eigentliche Datenverkehr. Jede dieser Phasen kann Latenz erzeugen oder fehlschlagen. Gleichzeitig ist TLS in der Praxis oft stark von Infrastrukturdetails abhängig: DNS- und TCP-Verhalten, MTU, Paketverlust, Proxys, NAT, Load Balancer, Sidecars und Hardwarebeschleunigung. Das Ergebnis ist ein typisches Operations-Problem: Applikationsteams sehen Fehler, die Ursache sitzt aber im Handshake oder in Zertifikatszuständen.

Eine solide technische Grundlage bietet die Spezifikation von TLS 1.3, die nicht nur das Protokoll beschreibt, sondern auch typische Fehlerpfade und Zustände verständlich einordnet: TLS 1.3 (RFC 8446).

Messpunkte: Wo Sie TLS sinnvoll instrumentieren

Damit TLS-Telemetrie nicht verwässert, sollten Sie zuerst klären, wo Sie messen. Unterschiedliche Messpunkte liefern unterschiedliche Wahrheiten, und im Idealfall ergänzen sie sich.

Client-seitig (Applikation/SDK): Zeigt die echte Nutzerwahrheit: „Wie lange dauerte der TLS-Aufbau aus Sicht des Clients?“ Vorteil: nah am Problem. Nachteil: heterogene Instrumentierung über viele Sprachen.
Proxy/Sidecar (z. B. Envoy im Mesh): Sehr praktikabel, weil Sidecars konsistente Metriken liefern und mTLS dort häufig terminiert. Vorteil: zentrale, standardisierte Telemetrie. Nachteil: nicht identisch mit End-to-End-TLS, wenn TLS vorher/offloaded wird.
Load Balancer/Gateway: Relevant, wenn TLS dort terminiert (TLS-Offload) oder wenn dort Timeouts und Re-Trys entstehen. Vorteil: klare Abgrenzung der Verantwortung. Nachteil: begrenzter Detailgrad je nach Produkt.
Server-seitig (Ingress/App): Zeigt, wie der Dienst TLS erlebt. Vorteil: nützlich bei Server-Zertifikaten, SNI-Routing, mTLS-Policies. Nachteil: Sichtbarkeit hängt stark von Runtime und Logging ab.

In Service-Mesh-Umgebungen ist Proxy-Telemetrie häufig der effektivste Startpunkt, weil Envoy umfangreiche Statistiken bereitstellt. Für den Einstieg in Envoy-Statistiken ist die offizielle Doku ein guter Anker: Envoy Stats Overview.

Handshake-Zeit: Was Sie wirklich messen sollten

„Handshake-Zeit“ wird oft zu grob verstanden. In der Praxis lohnt es sich, sie in sinnvolle Teilabschnitte zu zerlegen, weil unterschiedliche Ursachen zu unterschiedlichen Gegenmaßnahmen führen.

Handshake-Zeit vs. Connect-Zeit

TLS braucht meist zuerst eine TCP-Verbindung (außer bei QUIC/HTTP/3, was hier separat betrachtet werden müsste). Wenn Sie TLS-Latenz messen, trennen Sie nach Möglichkeit:

TCP Connect Zeit: SYN → SYN/ACK → ACK; beeinflusst durch Netz, LB, SYN-Cookies, Drops.
TLS Handshake Zeit: ClientHello → … → Finished; beeinflusst durch CPU, Zertifikatsprüfung, RTT, Resumption.

Wenn p99 „Handshake-Zeit“ steigt, aber Connect stabil ist, ist das häufig ein TLS-spezifisches Problem (CPU, Zertifikate, Resumption, Cipher-Auswahl). Wenn Connect ebenfalls steigt, ist eher der Netzwerkpfad, LB oder Node-Sättigung verdächtig.

Wichtige Dimensionen für Handshake-Latenz

Handshake-Latenz sollte nicht nur als Durchschnitt existieren, sondern als Verteilung (p50/p95/p99). Zusätzlich braucht sie sinnvolle Segmentierung, damit Sie Ursachen erkennen:

TLS-Version: z. B. TLS 1.2 vs. TLS 1.3 (unterschiedlicher Ablauf, andere Performancecharakteristik).
Resumption-Status: Full handshake vs. resumed (Session Tickets, PSK). Resumption reduziert meist Latenz und CPU.
Cipher Suite / Key Exchange: Einige Kombinationen sind CPU-intensiver als andere (konkret abhängig von Library/Hardware).
SNI/Hostname: Hilft bei Zertifikat- und Routingproblemen, sollte aber kardinalitätsbewusst eingesetzt werden.
Client/Server Failure Domain: Zone/Cluster/Node/Proxy-Instance, um „bad instance“ zu finden.

Für Verteilungen in Prometheus sind Histogramme üblich, aus denen Quantile abgeleitet werden. Hintergrund zu Metriktypen und Best Practices: Prometheus Metric Types.

Failure Rate: TLS-Fehler richtig zählen und richtig interpretieren

Eine TLS-Failure-Rate ist nur dann nützlich, wenn Sie Fehler sauber klassifizieren. „Handshake failed“ reicht nicht, weil die Ursachen stark variieren. Ziel ist eine Fehlerklassifikation, die im Incident direkt eine Richtung vorgibt.

Typische TLS-Fehlerklassen

Handshake Timeout: Keine vollständige Aushandlung innerhalb eines Zeitfensters; kann Netzwerk, CPU oder Upstream-Latenz sein.
Zertifikatsfehler: Expired, not yet valid, unbekannte CA, unvollständige Chain, SAN passt nicht, KeyUsage/ExtendedKeyUsage problematisch.
mTLS-Authn/Authz-Fehler: Client-Zertifikat fehlt, falsche SPIFFE-ID, falsche Trust Domain, Policy verweigert Zugriff.
Protocol/Version/Cipher Mismatch: Kein gemeinsamer Nenner zwischen Client und Server; häufig nach Härtung oder Legacy-Clients.
Alert-basiertes Abbrechen: TLS Alerts (z. B. handshake_failure, bad_certificate, unknown_ca) geben oft die klarste Ursache.

Wenn Ihre Telemetrie TLS Alerts klassifizieren kann, gewinnen Sie massiv an Diagnosegeschwindigkeit. Für TLS 1.3 und Alerts siehe Protokollspezifikation: TLS 1.3 (RFC 8446).

Failure Rate korrekt berechnen

Eine robuste Failure Rate ist eine Verhältniskennzahl: fehlgeschlagene Handshakes im Verhältnis zu allen Handshake-Versuchen im gleichen Zeitraum, idealerweise segmentiert nach Dimensionen (Service, Proxy, Zone, Version).

FailureRate = failed_handshakes total_handshakes × 100

Wichtig: Zählen Sie „total_handshakes“ so, dass Retries die Rate nicht unkontrolliert verzerren. Wenn Ihr Client aggressiv retried, kann die Failure Rate „besser“ aussehen (weil mehr Versuche insgesamt), obwohl Nutzerimpact steigt. In solchen Fällen ergänzen Sie eine zweite Metrik: „failed handshakes pro Sekunde“ oder „failed handshakes pro Request“, um die absolute Last sichtbar zu machen.

Cert-Metriken: Was Sie über Zertifikate messen müssen

Zertifikate sind eine der häufigsten TLS-Ausfallursachen, weil sie zeitabhängig sind. Das Problem ist nicht nur das Ablaufdatum, sondern auch Rotation, Verteilung, Chain-Vollständigkeit und die Übereinstimmung mit Hostnames/Identitäten.

Tage bis Ablauf (Days to Expiry)

Die wichtigste Zertifikatsmetrik ist die Zeit bis zum Ablauf, idealerweise pro Zertifikat/Identity und pro Deployment-Einheit (z. B. Gateway/Ingress, Sidecar-Workload, Control Plane). Ein einfacher, gut verständlicher Wert ist „Tage bis Ablauf“. Sie können daraus Warn- und Kritisch-Schwellen ableiten.

DaysToExpiry = NotAfter–Now 86400

Warnung: z. B. < 14 Tage (abhängig von Rotationsprozess)
Kritisch: z. B. < 3 Tage oder bereits abgelaufen

Wenn Sie ACME/Let’s Encrypt nutzen, ist es besonders wichtig, dass Telemetrie nicht nur „läuft die Erneuerung?“, sondern „ist das neue Zertifikat wirklich ausgerollt?“. Hintergrund zu ACME: ACME (RFC 8555).

Zertifikatskette und Trust Stores

Viele TLS-Probleme entstehen nicht durch das Leaf-Zertifikat, sondern durch eine unvollständige Chain oder inkonsistente Trust Stores. Sinnvolle Telemetrie-Ansätze:

Chain completeness indicator: „Server sent full chain“ oder „missing intermediate“ (je nach Messpunkt).
Trust store version/hash: hilft, Drift zwischen Nodes/Images zu erkennen.
Unknown CA / Verification failures: als Fehlerklasse der Failure Rate.

Gerade in Container-Umgebungen kommt es vor, dass Images unterschiedliche CA-Bundles tragen. Dann ist das Problem nicht „Zertifikat kaputt“, sondern „Client vertraut nicht“ – und das lässt sich ohne saubere Klassifikation nur schwer erkennen.

Identity-Metriken im mTLS-Betrieb

Wenn Sie mTLS einsetzen (z. B. im Service Mesh), ist „Zertifikat“ gleichzeitig „Identity“. Hier sollten Sie zusätzlich messen:

SPIFFE/SAN-Übereinstimmung: Welche Identität wurde präsentiert, welche wurde erwartet?
Rotation health: Erfolgreiche vs. fehlgeschlagene Rotationen (z. B. CSR/Signing Errors).
Policy-Rejections: mTLS erfolgreich, aber Authorization scheitert (wichtig, um TLS vs. AuthZ zu trennen).

Welche TLS-Metriken im Incident am meisten helfen

In einem Incident müssen Metriken schnell beantwortbare Fragen ermöglichen. Folgende Kennzahlen haben sich als besonders incident-tauglich erwiesen:

Handshake latency p95/p99 (segmentiert nach TLS-Version und Resumption)
Handshake failure rate (segmentiert nach Fehlerklasse/Alert)
Absolute failures per second (um Impact zu sehen, unabhängig von Retries)
Cert days-to-expiry min (der schlechteste Wert ist hier wichtig)
Certificate verification errors (unknown_ca, expired, hostname mismatch)
Proxy/Gateway resource saturation (CPU throttling, memory pressure) als Ursache für steigende Handshake-Zeit

Wenn Envoy Ihr Messpunkt ist, sind zusätzlich Counters zu „upstream connection failures“ und „TLS handshake errors“ wertvoll. Entscheidend ist, dass Sie sie so labeln, dass Sie den betroffenen Cluster/Service schnell finden erklären können. Einstieg über Envoy-Operations-Dokumentation: Envoy Telemetry.

Dashboards: Ein TLS-Panel, das wirklich „incident-ready“ ist

Ein TLS-Dashboard sollte nicht aus Dutzenden Charts bestehen, sondern aus wenigen, gut gewählten Panels mit Drilldown-Möglichkeit. Ein praxistauglicher Aufbau:

Handshake-Zeit (p50/p95/p99): global explain, plus Breakdown nach Version (TLS 1.2/1.3) und Resumption.
Handshake Failure Rate: Gesamt, plus Breakdown nach Fehlerklasse/Alert.
Errors vs. Requests: absolute failures/s und total handshakes/s, um Last- und Retry-Effekte zu sehen.
Top Failure Domains: Tabelle nach Zone/Cluster/Proxy-Instance (wo konzentriert sich das Problem?).
Cert Health: Minimum DaysToExpiry, Anzahl Zertifikate unter Schwelle, Rotation errors.
Ressourcen: CPU throttling, memory, restarts der TLS-terminierenden Komponenten (Sidecar, Gateway, Ingress).

Für gute Dashboard- und Label-Strategien lohnt sich ein Blick auf Observability-Standards, insbesondere wenn Sie Metriken mit Logs und Traces konsistent halten möchten: OpenTelemetry Dokumentation.

Alerting: Wie Sie TLS-Alarme actionable erklären

TLS-Alerting scheitert häufig an zwei Extremen: entweder zu grob („Handshake errors > 0“) oder zu fein (zu viele Alert-Typen). Ein guter Mittelweg ist, wenige Alarme zu definieren, die Nutzerimpact korrelieren und im Incident konkrete Hypothesen liefern.

Handshake p99 über Baseline (z. B. relative Anomalie, nicht nur statische Schwelle): deutet auf CPU/RTT/Resumption-Probleme hin.
Handshake failure rate über Schwelle (mit Breakdown nach Alert/Fehlerklasse): liefert sofort Richtung (Cert vs. Policy vs. Timeout).
DaysToExpiry unter Schwelle (Warn/Kritisch): verhindert ablaufbedingte Outages.
Rotation errors (z. B. CSR/Signing/Distribution): besonders wichtig in mTLS-Setups.

Wichtig ist, Alarme mit Kontext zu versehen: betroffener Service/Cluster/Zone, dominierende Fehlerklasse, Veränderung gegenüber Baseline. Ohne Kontext führt TLS-Alerting schnell zu On-Call-Frustration.

Häufige Ursachenbilder und wie Telemetrie sie entlarvt

Mit den richtigen Metriken lassen sich typische TLS-Probleme schnell unterscheiden.

Plötzlicher Anstieg der Handshake-Zeit ohne steigende Failure Rate

Typische Ursachen: CPU-Sättigung auf Gateways/Sidecars, fehlende Resumption, erhöhte RTT, verschlechtertes DNS/Connect-Verhalten.
Telemetrie-Indikatoren: p99 Handshake steigt, Resumption-Rate sinkt, CPU throttling steigt, Connect bleibt stabil oder steigt parallel.

Sprunghafter Anstieg von Zertifikatsfehlern

Typische Ursachen: abgelaufenes Zertifikat, falsches SAN nach Deployment, unvollständige Chain, Trust Store Drift.
Telemetrie-Indikatoren: failure class „expired/unknown_ca/hostname mismatch“ dominiert; DaysToExpiry fällt unter 0 oder nahe 0; betroffen meist mehrere Clients gleichzeitig.

mTLS-Handshakes scheitern nur zwischen bestimmten Services

Typische Ursachen: falsche mTLS-Policy, falsche Identität (SPIFFE), Trust Domain mismatch, fehlerhafte Rotation einzelner Workloads.
Telemetrie-Indikatoren: Fehlercluster auf spezifischen Service-Paaren; Alerts wie bad_certificate/unknown_ca; Rotation errors bei betroffenen Workloads.

Outbound-Quellen für vertiefende Informationen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.