SLOs für DNS/TLS/Ingress sind ein unterschätzter Hebel für echte User Experience, weil genau diese „Hidden Layers“ zwischen Client und Anwendung liegen und Fehler dort oft wie „die App ist langsam“ aussehen. In der Praxis sehen Nutzer nur: Seiten laden nicht, Login hängt, API antwortet sporadisch nicht – während Application Metrics noch grün sind. Der Grund ist simpel: Wenn DNS langsam auflöst, TLS-Handshakes länger dauern oder das Ingress-Gateway Traffic falsch routet, ist die UX bereits zerstört, bevor Ihre Business-Logik überhaupt erreicht wird. Wer SLOs nur auf Layer 7 (HTTP-Requests, 5xx, p95) definiert, misst häufig zu spät und an der falschen Stelle. Dieser Artikel zeigt, wie Sie SLOs für DNS, TLS und Ingress so definieren, dass sie beweisbar, operationalisierbar und für Einsteiger wie Profis nachvollziehbar sind – inklusive geeigneter SLIs, Messmethoden, sinnvoller Schwellenwerte, Alerting-Logik und typischer Fallstricke wie Caches, Retries oder Client-Diversität.
Warum DNS, TLS und Ingress „Hidden Layers“ sind – und warum sie SLOs brauchen
DNS, TLS und Ingress werden in vielen Teams als „Plattform“ betrachtet: wichtig, aber nicht Teil der Produktmetriken. Genau das ist riskant. Diese Komponenten sind gemeinsame Abhängigkeiten mit großem Blast Radius. Ein kleiner Fehler (z. B. ein fehlerhaftes Zertifikat, ein DNS-Resolver-Problem oder ein Ingress-Config-Drift) trifft viele Services gleichzeitig und wirkt wie ein diffuser Systemausfall. SLOs sind hier weniger „Compliance“ als ein Frühwarnsystem: Sie machen sichtbar, ob die Zugriffswege zur Anwendung funktionieren – unabhängig davon, ob die Anwendung gerade selbst stabil ist.
- DNS: Ohne schnelle, korrekte Namensauflösung gibt es keine Verbindung – oder nur mit massiven Verzögerungen.
- TLS: Ein fehlerhafter Handshake oder zu hohe Handshake-Latenz sabotiert jedes Request-SLO, bevor HTTP beginnt.
- Ingress: Load Balancer, Reverse Proxy, API Gateway oder Ingress Controller entscheiden über Routing, Timeouts, Retries und Limits.
Grundlagen: SLI vs. SLO – und was hier „gut“ bedeutet
Für Hidden Layers sollten Sie SLOs nicht als „99,9% Uptime“ formulieren, sondern als konkrete, messbare Service Level Indicators (SLIs). Besonders hilfreich sind zwei SLI-Kategorien: Erfolgsraten (Correctness) und Zeitverhalten (Latency). Für DNS/TLS/Ingress ist außerdem entscheidend, wo Sie messen: intern (Server-Perspektive) oder extern (Client-Perspektive). Die „Wahrheit“ für UX liegt fast immer näher am Client.
- Correctness-SLI: Anteil erfolgreicher DNS-Answers, TLS-Handshakes oder Ingress-Routings.
- Latency-SLI: p50/p95/p99 für DNS-Resolution, TLS-Handshake, Ingress-Proxying.
- Scope-SLI: pro Region/AZ, pro Provider, pro Resolver-Cluster, pro Ingress-Class.
Als Referenz für SRE-SLO-Logik und Error Budgets eignet sich das Kapitel zu Service Level Objectives im SRE Book.
DNS-SLOs: Messen, was Clients wirklich spüren
DNS ist tückisch, weil Caching vieles verdeckt. Wenn Sie nur den autoritativen DNS-Server messen, entgeht Ihnen die Resolver-Realität. Clients sprechen typischerweise rekursive Resolver (Corporate DNS, ISP Resolver, Public Resolver, Kubernetes CoreDNS), und dort entstehen die sichtbaren Probleme: Timeouts, SERVFAIL, NXDOMAIN durch Drift, zu kurze TTLs, Cache Thrash oder fehlerhafte Forwarder. Ein DNS-SLO sollte deshalb mindestens zwei Perspektiven kombinieren: „Resolver-Health“ (rekursiv) und „Authoritative Correctness“ (autoritativer Server).
DNS-SLIs, die sich in der Praxis bewähren
- DNS-Resolution Success Rate: Anteil erfolgreicher Antworten (NOERROR) ohne Timeout.
- DNS-Resolution Latency: p95/p99 für Lookup-Dauer (A/AAAA/CNAME), getrennt nach Cache-Hit vs. Cache-Miss.
- SERVFAIL-/Timeout-Rate: Anteil fehlerhafter Antworten, besonders aussagekräftig bei Rekursion.
- NXDOMAIN-Rate für „kritische Domains“: Warnsignal für falsche Records, Split-Horizon-Probleme oder Rollout-Fehler.
- Record-Propagation Time: Zeit bis ein Record-Update global konsistent sichtbar ist (wichtig für Cutovers).
Messmethoden: Synthetic, Real User und Infrastruktur-Telemetrie
Für DNS ist Synthetic Monitoring extrem effektiv, weil es reproduzierbar ist: gleiche Query, gleiche Zeitfenster, definierte Resolver. Ergänzen Sie das mit Telemetrie aus Resolvern (z. B. CoreDNS-Metriken) und – wenn verfügbar – Real User Monitoring (RUM) aus Clients oder Edge-Agents. Bei Kubernetes lohnt sich ein Blick in die CoreDNS Metrics-Dokumentation, um Cache-Hit-Raten, Request-Typen und Fehler sauber zu erfassen.
DNS-SLO-Beispiel, das nicht vom Cache „schön gerechnet“ wird
- SLO (Correctness): ≥ 99,95% erfolgreiche DNS-Resolution für kritische Domains (ohne Timeout) pro Region.
- SLO (Latency): p95 < 50 ms für Cache-Hits, p95 < 200 ms für Cache-Misses (je nach Geografie/Provider).
- Guardrail: SERVFAIL/Timeout > 0,1% über 5 Minuten triggert Incident-Triage.
Wichtig: Trennen Sie Cache-Hits und Cache-Misses. Ein einziger globaler p95-Wert kann durch hohe Hit-Raten gut aussehen, während Misses (z. B. nach Deploys, TTL-Änderungen oder Resolver-Restarts) die UX zerstören.
TLS-SLOs: Handshake als eigener „User Journey“-Abschnitt
TLS-Probleme werden oft fälschlich als „Netzwerk“ oder „sporadische 5xx“ wahrgenommen. Dabei ist TLS vor HTTP die entscheidende Barriere: Wenn Handshakes langsam sind oder scheitern, sieht der Nutzer Timeouts, Abbrüche, Browser-Warnungen oder „Connection reset“. Besonders kritisch wird es bei Zertifikatsrotationen, mTLS im Mesh, SNI/ALPN-Mismatches, Client-Kompatibilität und bei Edge-Setups mit TLS-Offload.
TLS-SLIs, die Sie getrennt von HTTP messen sollten
- TLS Handshake Success Rate: Anteil erfolgreicher Handshakes (inkl. SNI/ALPN korrekt).
- TLS Handshake Latency: p95/p99 vom TCP-Connect bis „handshake completed“.
- Handshake Failure Taxonomy: Aufschlüsselung nach Fehlerarten (z. B. cert expired, unknown CA, protocol version, handshake timeout).
- Certificate Expiry Budget: „Tage bis Ablauf“ als SLI, inkl. Warnschwellen für Rotation.
- mTLS Policy Success: Anteil erlaubter vs. abgewiesener mTLS-Verbindungen (wichtig: Abweisung ist nicht automatisch „Fehler“).
Wo messen: Edge, Ingress oder Pod?
Die Messstelle hängt vom TLS-Terminationspunkt ab. Terminiert TLS am CDN/Edge, müssen Sie dort messen. Terminiert TLS am Ingress Controller, messen Sie am Ingress. Bei End-to-End-TLS (bis zum Pod) brauchen Sie zusätzlich per Service/Workload eine Perspektive. Für die Protokollsemantik (SNI/ALPN) lohnt sich die Spezifikation zu Server Name Indication (SNI) sowie die Beschreibung von ALPN als Grundlage, um „works on some clients“-Fehler strukturiert zu kategorisieren.
TLS-SLO-Beispiel mit UX-Fokus
- SLO (Correctness): ≥ 99,99% erfolgreiche TLS-Handshakes für produktive Domains an Edge/Ingress.
- SLO (Latency): p95 < 120 ms, p99 < 250 ms Handshake-Latenz (regional differenziert).
- SLO (Safety): 0 „expired certificate“-Ereignisse; Zertifikate müssen ≥ 14 Tage Restlaufzeit haben.
Ingress-SLOs: Der Datenpfad, der oft mehr „Policy“ als „Routing“ ist
Ingress ist nicht nur „Traffic rein“. In vielen Architekturen ist Ingress ein Policy-Enforcer (WAF, Rate Limits, Auth, Header-Rewrites), ein Load Balancer (L4/L7), ein Proxy mit eigenen Timeouts/Queues und häufig ein Ort, an dem Fehlkonfigurationen leise wirken: einzelne Pfade brechen, nur bestimmte Clients scheitern, nur große Payloads hängen, nur WebSockets droppen. SLOs für Ingress sollten deshalb die Proxy-Funktion als eigenständigen Service messen.
Ingress-SLIs: getrennt nach „Proxy-Health“ und „Upstream-Health“
- Ingress Request Success Rate: Anteil Requests, die vom Ingress korrekt verarbeitet und an Upstreams übergeben werden.
- Ingress Latency Budget: Zeitanteil, den Ingress zur End-to-End-Latenz beiträgt (Queueing + Proxying).
- 5xx-Typen am Ingress: 502/503/504 getrennt, weil sie unterschiedliche Ursachen nahelegen.
- Connection-Level Errors: Resets, TLS errors (falls Termination), upstream connect timeouts.
- Rate Limit/WAF Impact: Anteil geblockter Requests (erwartet) vs. false positives (schädlich für UX).
Typische Fallstricke: Timeouts, Retries, Buffering, WebSockets
Ingress-Komponenten haben oft Default-Timeouts, die nicht zur Anwendung passen (z. B. zu kurze idle timeouts, zu aggressive upstream timeouts). Ebenso relevant: Retries am Ingress können Ausfälle kaschieren, aber auch verstärken. Buffering/Compression kann Latenz und CPU erhöhen, und Streaming/WebSockets benötigen eigene SLOs, weil ihre Failure Modes anders sind als bei kurzen HTTP-Requests.
- Timeout Drift: Ingress bricht Requests ab, während Upstream noch arbeitet → 504 am Ingress, aber Upstream-Metriken grün.
- Retry Amplification: Ingress retryt automatisch → scheinbar bessere Success Rate, aber mehr Last und Tail Latency.
- Queueing: Ingress ist gesättigt → p99 explodiert, obwohl Upstreams Kapazität hätten.
Ingress-SLO-Beispiel, das Upstream sauber entkoppelt
- SLO (Proxy Correctness): ≥ 99,95% der Requests werden vom Ingress ohne Proxy-Fehler (502/503/504 durch Ingress) verarbeitet.
- SLO (Proxy Latency): p95 Ingress-Overhead < 20 ms (intern), p99 < 60 ms (je nach Umgebung).
- Policy-SLO: False-Positive-Rate bei WAF/Rate Limit < 0,01% (erfordert Labeling/Feedback-Loop).
Error Budgets für Hidden Layers: SLOs in Zeit „übersetzen“
Damit SLOs operativ nutzbar werden, hilft die Übersetzung in Error Budget (erlaubte „schlechte“ Ereignisse pro Zeitraum). Für Hidden Layers ist das besonders nützlich, weil Sie damit priorisieren können: War es ein kurzer DNS-Spike, oder ist das Budget für den Monat bereits verbrannt?
Wenn Sie beispielsweise einen Monatszeitraum mit 30 Tagen annehmen, entspricht das 43.200 Minuten. Bei einem SLO von 99,95% ist das erlaubte „Bad Budget“:
Diese Darstellung macht Diskussionen konkret: 20–25 Minuten „schlechte DNS-Resolution“ pro Monat können bereits reichen, um UX spürbar zu schädigen, insbesondere wenn die Probleme nicht gleichmäßig verteilt sind, sondern als Bursts auftreten.
Multi-Layer-SLO-Design: Wie DNS, TLS und Ingress zusammen eine UX-Sicht ergeben
Ein häufiger Fehler ist, drei getrennte SLOs zu definieren, die sich in der Praxis widersprechen. Besser ist ein zweistufiges Modell: (1) Layer-SLOs als „Gating SLOs“ (Zugriffspfad muss funktionieren) und (2) ein End-to-End-UX-SLO (z. B. erfolgreiche Requests unter Latenzgrenze). Layer-SLOs erklären, warum das UX-SLO bricht.
- Gating-SLOs: DNS Success, TLS Handshake Success, Ingress Proxy Success.
- UX-SLO: „Successful user transactions“ oder „API success under threshold“.
- Correlation: Wenn UX-SLO rot ist, zeigen Layer-SLOs, ob die Ursache vor oder nach der App liegt.
Alerting ohne Alarmmüdigkeit: Burn Rate und Segmentierung
Hidden Layers erzeugen oft viele kurze Spikes. Alerting sollte deshalb weniger auf „ein einzelner Punkt ist schlecht“ basieren, sondern auf Burn-Rate-Logik und Segmentierung. Burn Rate bedeutet: Wie schnell verbrauchen wir das Error Budget? Segmentierung bedeutet: Wo tritt es auf (Region, Resolver, Client-Typ, Ingress-Class)?
- Multi-Window Alerting: schneller Alarm bei starkem Burn (z. B. 5–10 Minuten), zusätzlicher Alarm bei langsamem Burn (z. B. 1–2 Stunden).
- Per-Segment Alerts: DNS-Probleme nur in einer Region → zielgerichtete Triage statt globaler Pager.
- Taxonomie: TLS-Fehler nach Ursache (expired, unknown CA, protocol mismatch) statt „TLS error“.
Outbound-Evidence: Welche Quellen und Tools bei der Umsetzung helfen
Für Teams, die SLOs pragmatisch einführen wollen, ist es hilfreich, sich auf etablierte Standards und Telemetrie-Modelle zu stützen. OpenTelemetry bietet eine konsistente Grundlage für Metriken und Tracing über Komponenten hinweg; die OpenTelemetry Semantic Conventions helfen, TLS- und HTTP-Events einheitlich zu taggen. Für DNS-Resolver-Telemetrie sind CoreDNS-Metriken eine bewährte Basis (siehe CoreDNS Metrics). Für generelle SLO-Methodik und Error Budgets liefert das SRE Book robuste Leitlinien.
Checkliste: SLOs für DNS/TLS/Ingress so definieren, dass sie nicht „schummeln“
- DNS-Latenz immer getrennt nach Cache-Hit und Cache-Miss messen.
- DNS-Success aus Client-Perspektive messen (rekursiver Resolver), nicht nur autoritativ.
- TLS-Handshake als eigene Metrik erfassen (Success + p95/p99), getrennt von HTTP.
- Zertifikatslaufzeiten als Safety-SLI etablieren (z. B. < 14 Tage Restlaufzeit = Risiko).
- Ingress-Fehler nach Typ trennen (502 vs. 503 vs. 504) und Proxy-Fehler von Upstream-Fehlern unterscheiden.
- Policy-Effekte (WAF/Rate Limits) als eigene SLIs behandeln, inklusive False-Positive-Tracking.
- Alerting über Burn Rate und Segmentierung aufsetzen, nicht über einzelne Spikes.
- Mindestens einen synthetischen Check pro Layer betreiben: DNS Query, TLS Handshake, Ingress Request.
- Layer-SLOs als „Gating“ nutzen, um UX-SLO-Brüche schnell zu erklären.
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.












