SLOs für DNS/TLS/Ingress: „Hidden Layers“ messen, die UX zerstören

Red Snapper

2 months ago

SLOs für DNS/TLS/Ingress sind ein unterschätzter Hebel für echte User Experience, weil genau diese „Hidden Layers“ zwischen Client und Anwendung liegen und Fehler dort oft wie „die App ist langsam“ aussehen. In der Praxis sehen Nutzer nur: Seiten laden nicht, Login hängt, API antwortet sporadisch nicht – während Application Metrics noch grün sind. Der Grund ist simpel: Wenn DNS langsam auflöst, TLS-Handshakes länger dauern oder das Ingress-Gateway Traffic falsch routet, ist die UX bereits zerstört, bevor Ihre Business-Logik überhaupt erreicht wird. Wer SLOs nur auf Layer 7 (HTTP-Requests, 5xx, p95) definiert, misst häufig zu spät und an der falschen Stelle. Dieser Artikel zeigt, wie Sie SLOs für DNS, TLS und Ingress so definieren, dass sie beweisbar, operationalisierbar und für Einsteiger wie Profis nachvollziehbar sind – inklusive geeigneter SLIs, Messmethoden, sinnvoller Schwellenwerte, Alerting-Logik und typischer Fallstricke wie Caches, Retries oder Client-Diversität.

Warum DNS, TLS und Ingress „Hidden Layers“ sind – und warum sie SLOs brauchen

DNS, TLS und Ingress werden in vielen Teams als „Plattform“ betrachtet: wichtig, aber nicht Teil der Produktmetriken. Genau das ist riskant. Diese Komponenten sind gemeinsame Abhängigkeiten mit großem Blast Radius. Ein kleiner Fehler (z. B. ein fehlerhaftes Zertifikat, ein DNS-Resolver-Problem oder ein Ingress-Config-Drift) trifft viele Services gleichzeitig und wirkt wie ein diffuser Systemausfall. SLOs sind hier weniger „Compliance“ als ein Frühwarnsystem: Sie machen sichtbar, ob die Zugriffswege zur Anwendung funktionieren – unabhängig davon, ob die Anwendung gerade selbst stabil ist.

DNS: Ohne schnelle, korrekte Namensauflösung gibt es keine Verbindung – oder nur mit massiven Verzögerungen.
TLS: Ein fehlerhafter Handshake oder zu hohe Handshake-Latenz sabotiert jedes Request-SLO, bevor HTTP beginnt.
Ingress: Load Balancer, Reverse Proxy, API Gateway oder Ingress Controller entscheiden über Routing, Timeouts, Retries und Limits.

Grundlagen: SLI vs. SLO – und was hier „gut“ bedeutet

Für Hidden Layers sollten Sie SLOs nicht als „99,9% Uptime“ formulieren, sondern als konkrete, messbare Service Level Indicators (SLIs). Besonders hilfreich sind zwei SLI-Kategorien: Erfolgsraten (Correctness) und Zeitverhalten (Latency). Für DNS/TLS/Ingress ist außerdem entscheidend, wo Sie messen: intern (Server-Perspektive) oder extern (Client-Perspektive). Die „Wahrheit“ für UX liegt fast immer näher am Client.

Correctness-SLI: Anteil erfolgreicher DNS-Answers, TLS-Handshakes oder Ingress-Routings.
Latency-SLI: p50/p95/p99 für DNS-Resolution, TLS-Handshake, Ingress-Proxying.
Scope-SLI: pro Region/AZ, pro Provider, pro Resolver-Cluster, pro Ingress-Class.

Als Referenz für SRE-SLO-Logik und Error Budgets eignet sich das Kapitel zu Service Level Objectives im SRE Book.

DNS-SLOs: Messen, was Clients wirklich spüren

DNS ist tückisch, weil Caching vieles verdeckt. Wenn Sie nur den autoritativen DNS-Server messen, entgeht Ihnen die Resolver-Realität. Clients sprechen typischerweise rekursive Resolver (Corporate DNS, ISP Resolver, Public Resolver, Kubernetes CoreDNS), und dort entstehen die sichtbaren Probleme: Timeouts, SERVFAIL, NXDOMAIN durch Drift, zu kurze TTLs, Cache Thrash oder fehlerhafte Forwarder. Ein DNS-SLO sollte deshalb mindestens zwei Perspektiven kombinieren: „Resolver-Health“ (rekursiv) und „Authoritative Correctness“ (autoritativer Server).

DNS-SLIs, die sich in der Praxis bewähren

DNS-Resolution Success Rate: Anteil erfolgreicher Antworten (NOERROR) ohne Timeout.
DNS-Resolution Latency: p95/p99 für Lookup-Dauer (A/AAAA/CNAME), getrennt nach Cache-Hit vs. Cache-Miss.
SERVFAIL-/Timeout-Rate: Anteil fehlerhafter Antworten, besonders aussagekräftig bei Rekursion.
NXDOMAIN-Rate für „kritische Domains“: Warnsignal für falsche Records, Split-Horizon-Probleme oder Rollout-Fehler.
Record-Propagation Time: Zeit bis ein Record-Update global konsistent sichtbar ist (wichtig für Cutovers).

Messmethoden: Synthetic, Real User und Infrastruktur-Telemetrie

Für DNS ist Synthetic Monitoring extrem effektiv, weil es reproduzierbar ist: gleiche Query, gleiche Zeitfenster, definierte Resolver. Ergänzen Sie das mit Telemetrie aus Resolvern (z. B. CoreDNS-Metriken) und – wenn verfügbar – Real User Monitoring (RUM) aus Clients oder Edge-Agents. Bei Kubernetes lohnt sich ein Blick in die CoreDNS Metrics-Dokumentation, um Cache-Hit-Raten, Request-Typen und Fehler sauber zu erfassen.

DNS-SLO-Beispiel, das nicht vom Cache „schön gerechnet“ wird

SLO (Correctness): ≥ 99,95% erfolgreiche DNS-Resolution für kritische Domains (ohne Timeout) pro Region.
SLO (Latency): p95 < 50 ms für Cache-Hits, p95 < 200 ms für Cache-Misses (je nach Geografie/Provider).
Guardrail: SERVFAIL/Timeout > 0,1% über 5 Minuten triggert Incident-Triage.

Wichtig: Trennen Sie Cache-Hits und Cache-Misses. Ein einziger globaler p95-Wert kann durch hohe Hit-Raten gut aussehen, während Misses (z. B. nach Deploys, TTL-Änderungen oder Resolver-Restarts) die UX zerstören.

TLS-SLOs: Handshake als eigener „User Journey“-Abschnitt

TLS-Probleme werden oft fälschlich als „Netzwerk“ oder „sporadische 5xx“ wahrgenommen. Dabei ist TLS vor HTTP die entscheidende Barriere: Wenn Handshakes langsam sind oder scheitern, sieht der Nutzer Timeouts, Abbrüche, Browser-Warnungen oder „Connection reset“. Besonders kritisch wird es bei Zertifikatsrotationen, mTLS im Mesh, SNI/ALPN-Mismatches, Client-Kompatibilität und bei Edge-Setups mit TLS-Offload.

TLS-SLIs, die Sie getrennt von HTTP messen sollten

TLS Handshake Success Rate: Anteil erfolgreicher Handshakes (inkl. SNI/ALPN korrekt).
TLS Handshake Latency: p95/p99 vom TCP-Connect bis „handshake completed“.
Handshake Failure Taxonomy: Aufschlüsselung nach Fehlerarten (z. B. cert expired, unknown CA, protocol version, handshake timeout).
Certificate Expiry Budget: „Tage bis Ablauf“ als SLI, inkl. Warnschwellen für Rotation.
mTLS Policy Success: Anteil erlaubter vs. abgewiesener mTLS-Verbindungen (wichtig: Abweisung ist nicht automatisch „Fehler“).

Wo messen: Edge, Ingress oder Pod?

Die Messstelle hängt vom TLS-Terminationspunkt ab. Terminiert TLS am CDN/Edge, müssen Sie dort messen. Terminiert TLS am Ingress Controller, messen Sie am Ingress. Bei End-to-End-TLS (bis zum Pod) brauchen Sie zusätzlich per Service/Workload eine Perspektive. Für die Protokollsemantik (SNI/ALPN) lohnt sich die Spezifikation zu Server Name Indication (SNI) sowie die Beschreibung von ALPN als Grundlage, um „works on some clients“-Fehler strukturiert zu kategorisieren.

TLS-SLO-Beispiel mit UX-Fokus

SLO (Correctness): ≥ 99,99% erfolgreiche TLS-Handshakes für produktive Domains an Edge/Ingress.
SLO (Latency): p95 < 120 ms, p99 < 250 ms Handshake-Latenz (regional differenziert).
SLO (Safety): 0 „expired certificate“-Ereignisse; Zertifikate müssen ≥ 14 Tage Restlaufzeit haben.

Ingress-SLOs: Der Datenpfad, der oft mehr „Policy“ als „Routing“ ist

Ingress ist nicht nur „Traffic rein“. In vielen Architekturen ist Ingress ein Policy-Enforcer (WAF, Rate Limits, Auth, Header-Rewrites), ein Load Balancer (L4/L7), ein Proxy mit eigenen Timeouts/Queues und häufig ein Ort, an dem Fehlkonfigurationen leise wirken: einzelne Pfade brechen, nur bestimmte Clients scheitern, nur große Payloads hängen, nur WebSockets droppen. SLOs für Ingress sollten deshalb die Proxy-Funktion als eigenständigen Service messen.

Ingress-SLIs: getrennt nach „Proxy-Health“ und „Upstream-Health“

Ingress Request Success Rate: Anteil Requests, die vom Ingress korrekt verarbeitet und an Upstreams übergeben werden.
Ingress Latency Budget: Zeitanteil, den Ingress zur End-to-End-Latenz beiträgt (Queueing + Proxying).
5xx-Typen am Ingress: 502/503/504 getrennt, weil sie unterschiedliche Ursachen nahelegen.
Connection-Level Errors: Resets, TLS errors (falls Termination), upstream connect timeouts.
Rate Limit/WAF Impact: Anteil geblockter Requests (erwartet) vs. false positives (schädlich für UX).

Typische Fallstricke: Timeouts, Retries, Buffering, WebSockets

Ingress-Komponenten haben oft Default-Timeouts, die nicht zur Anwendung passen (z. B. zu kurze idle timeouts, zu aggressive upstream timeouts). Ebenso relevant: Retries am Ingress können Ausfälle kaschieren, aber auch verstärken. Buffering/Compression kann Latenz und CPU erhöhen, und Streaming/WebSockets benötigen eigene SLOs, weil ihre Failure Modes anders sind als bei kurzen HTTP-Requests.

Timeout Drift: Ingress bricht Requests ab, während Upstream noch arbeitet → 504 am Ingress, aber Upstream-Metriken grün.
Retry Amplification: Ingress retryt automatisch → scheinbar bessere Success Rate, aber mehr Last und Tail Latency.
Queueing: Ingress ist gesättigt → p99 explodiert, obwohl Upstreams Kapazität hätten.

Ingress-SLO-Beispiel, das Upstream sauber entkoppelt

SLO (Proxy Correctness): ≥ 99,95% der Requests werden vom Ingress ohne Proxy-Fehler (502/503/504 durch Ingress) verarbeitet.
SLO (Proxy Latency): p95 Ingress-Overhead < 20 ms (intern), p99 < 60 ms (je nach Umgebung).
Policy-SLO: False-Positive-Rate bei WAF/Rate Limit < 0,01% (erfordert Labeling/Feedback-Loop).

Error Budgets für Hidden Layers: SLOs in Zeit „übersetzen“

Damit SLOs operativ nutzbar werden, hilft die Übersetzung in Error Budget (erlaubte „schlechte“ Ereignisse pro Zeitraum). Für Hidden Layers ist das besonders nützlich, weil Sie damit priorisieren können: War es ein kurzer DNS-Spike, oder ist das Budget für den Monat bereits verbrannt?

ErrorBudget = Zeitraum × (1–SLO)

Wenn Sie beispielsweise einen Monatszeitraum mit 30 Tagen annehmen, entspricht das 43.200 Minuten. Bei einem SLO von 99,95% ist das erlaubte „Bad Budget“:

43200 × (1–0.9995) = 21.6 min

Diese Darstellung macht Diskussionen konkret: 20–25 Minuten „schlechte DNS-Resolution“ pro Monat können bereits reichen, um UX spürbar zu schädigen, insbesondere wenn die Probleme nicht gleichmäßig verteilt sind, sondern als Bursts auftreten.

Multi-Layer-SLO-Design: Wie DNS, TLS und Ingress zusammen eine UX-Sicht ergeben

Ein häufiger Fehler ist, drei getrennte SLOs zu definieren, die sich in der Praxis widersprechen. Besser ist ein zweistufiges Modell: (1) Layer-SLOs als „Gating SLOs“ (Zugriffspfad muss funktionieren) und (2) ein End-to-End-UX-SLO (z. B. erfolgreiche Requests unter Latenzgrenze). Layer-SLOs erklären, warum das UX-SLO bricht.

Gating-SLOs: DNS Success, TLS Handshake Success, Ingress Proxy Success.
UX-SLO: „Successful user transactions“ oder „API success under threshold“.
Correlation: Wenn UX-SLO rot ist, zeigen Layer-SLOs, ob die Ursache vor oder nach der App liegt.

Alerting ohne Alarmmüdigkeit: Burn Rate und Segmentierung

Hidden Layers erzeugen oft viele kurze Spikes. Alerting sollte deshalb weniger auf „ein einzelner Punkt ist schlecht“ basieren, sondern auf Burn-Rate-Logik und Segmentierung. Burn Rate bedeutet: Wie schnell verbrauchen wir das Error Budget? Segmentierung bedeutet: Wo tritt es auf (Region, Resolver, Client-Typ, Ingress-Class)?

Multi-Window Alerting: schneller Alarm bei starkem Burn (z. B. 5–10 Minuten), zusätzlicher Alarm bei langsamem Burn (z. B. 1–2 Stunden).
Per-Segment Alerts: DNS-Probleme nur in einer Region → zielgerichtete Triage statt globaler Pager.
Taxonomie: TLS-Fehler nach Ursache (expired, unknown CA, protocol mismatch) statt „TLS error“.

Outbound-Evidence: Welche Quellen und Tools bei der Umsetzung helfen

Für Teams, die SLOs pragmatisch einführen wollen, ist es hilfreich, sich auf etablierte Standards und Telemetrie-Modelle zu stützen. OpenTelemetry bietet eine konsistente Grundlage für Metriken und Tracing über Komponenten hinweg; die OpenTelemetry Semantic Conventions helfen, TLS- und HTTP-Events einheitlich zu taggen. Für DNS-Resolver-Telemetrie sind CoreDNS-Metriken eine bewährte Basis (siehe CoreDNS Metrics). Für generelle SLO-Methodik und Error Budgets liefert das SRE Book robuste Leitlinien.

Checkliste: SLOs für DNS/TLS/Ingress so definieren, dass sie nicht „schummeln“

DNS-Latenz immer getrennt nach Cache-Hit und Cache-Miss messen.
DNS-Success aus Client-Perspektive messen (rekursiver Resolver), nicht nur autoritativ.
TLS-Handshake als eigene Metrik erfassen (Success + p95/p99), getrennt von HTTP.
Zertifikatslaufzeiten als Safety-SLI etablieren (z. B. < 14 Tage Restlaufzeit = Risiko).
Ingress-Fehler nach Typ trennen (502 vs. 503 vs. 504) und Proxy-Fehler von Upstream-Fehlern unterscheiden.
Policy-Effekte (WAF/Rate Limits) als eigene SLIs behandeln, inklusive False-Positive-Tracking.
Alerting über Burn Rate und Segmentierung aufsetzen, nicht über einzelne Spikes.
Mindestens einen synthetischen Check pro Layer betreiben: DNS Query, TLS Handshake, Ingress Request.
Layer-SLOs als „Gating“ nutzen, um UX-SLO-Brüche schnell zu erklären.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.