Runbook für „Spiky Latency“

Red Snapper

3 months ago

Ein Runbook für „Spiky Latency“ ist in der Praxis oft wertvoller als ein generisches Performance-Handbuch, weil Latenzspitzen selten „gleichmäßig“ auftreten. Typisch ist ein System, das die meiste Zeit stabil wirkt, aber in unregelmäßigen Abständen p95/p99-Ausschläge zeigt: einzelne Minuten mit drastisch höherer Antwortzeit, manchmal ohne klare Fehlerquote, manchmal mit Timeouts, Retries oder 5xx. Genau diese Spikes sind für On-Call besonders gefährlich, weil sie schwer reproduzierbar sind und schnell zu falschen Hypothesen führen („Netzwerkproblem“, „Datenbank langsam“, „GC“, „Load Balancer“). Dieses Runbook für Spiky Latency ist darauf ausgelegt, in einem Incident unter Zeitdruck eine konsistente Vorgehensweise zu liefern: erst Scope und Muster sichern, dann schnell zwischen Client-, Proxy-, Netzwerk- und Backend-Ursachen trennen, danach konkrete Evidenz sammeln und Mitigations priorisieren. Ziel ist nicht akademische Vollständigkeit, sondern eine robuste Entscheidungslogik, die wiederholbar funktioniert – unabhängig davon, ob Sie in Kubernetes, VM-basierten Umgebungen oder klassischen Rechenzentren arbeiten. Der Fokus liegt darauf, Latenzspitzen als Symptom einer Warteschlange, einer Ressourcensättigung oder einer Retransmission-Kette zu behandeln und diese Ursachen nachweisbar zu belegen.

Definition und Zielbild: Was „Spiky Latency“ im Incident-Kontext bedeutet

Spiky Latency ist typischerweise eine kurzfristige Verschlechterung der Latenzverteilung, bei der vor allem Long-Tail-Perzentile (p95/p99/p999) stark ansteigen, während p50/p75 oft relativ stabil bleiben. Das ist ein Hinweis darauf, dass nicht jeder Request betroffen ist, sondern nur ein Teil, der „in eine Warteschlange fällt“ oder mit einem zeitweiligen Engpass kollidiert (CPU, I/O, Connection Pool, DNS, TLS Handshake, Packet Loss, Rate Limits, Garbage Collection, Lock Contention).

Perzentile korrekt interpretieren

Als Daumenregel: p99 ist der Wert, unter dem 99% der Messwerte liegen. Wenn p99 spiked, werden die „schlechtesten“ 1% Requests deutlich langsamer, ohne dass der Median sich bewegen muss. Formal kann man das Perzentil als Quantilfunktion ausdrücken:

p – Quantil = Q ( p )

Praktisch reicht im Runbook jedoch: Perzentile nie isoliert betrachten, sondern mit Request-Rate, Fehlerquote, Retries und Ressourcensignalen kombinieren.

Runbook-Start: Triage in den ersten 5–10 Minuten

Die wichtigste Aufgabe zu Beginn ist, den Incident nicht zu „überdiagnostizieren“. Spiky Latency kann durch echte Produktionsprobleme entstehen, aber auch durch Messartefakte (zu wenige Samples, Aggregationsfehler, fehlerhafte Histogramm-Buckets). Beginnen Sie mit einem klaren Triage-Schema.

Schritt 1: Betroffenheit bestätigen – Welche SLOs/SLIs sind verletzt? Welche Endpoints sind betroffen? Welche Regionen/Zones/Clusters?
Schritt 2: Muster erkennen – Spikes periodisch (z. B. alle 5 Minuten) oder zufällig? Dauer Sekunden/Minuten? Korrelieren sie mit Deployments oder Cronjobs?
Schritt 3: Long-Tail vs. Gesamt – Steigt p99 stark, aber p50 kaum? Oder ist alles hoch? Long-Tail spricht eher für Queueing, Locks, Retransmits, Pools.
Schritt 4: Fehlerquote prüfen – Timeouts, 5xx, gRPC Statuscodes. Spiky Latency ohne Fehler ist häufig Queueing; mit Fehlern oft Timeouts/Backpressure.
Schritt 5: Traffic- und Retry-Verhalten prüfen – QPS stabil? Retries hoch? Concurrency hoch? Spikes können durch Retry-Stürme verstärkt werden.

Mess- und Evidenzpaket: Was Sie sofort sichern sollten

Damit Sie später nicht „nur Vermutungen“ haben, sichern Sie früh ein minimales Evidence Pack. Das reduziert Diskussionen und hilft bei Postmortems.

Zeitfenster – Start/Ende der Spikes, Zeitzone, betroffene Services.
Perzentile – p50/p95/p99 (idealerweise als Histogramm/Heatmap, nicht nur Linien).
Fehler – Timeout-Rate, 5xx, Reset/Disconnects, gRPC Codes.
Traffic – RPS/QPS, Concurrency, Connection Count.
Ressourcen – CPU (inkl. Throttling), Memory/GC, Disk I/O, Netzwerk-Drops/Retransmits.
Changes – Deployments, Config-Änderungen, Feature Flags, Autoscaling-Ereignisse.

Für ein etabliertes SRE-Vokabular zu Latenz, Traffic und Fehlern sind die Golden Signals ein bewährter Rahmen: Monitoring Distributed Systems (Google SRE Book).

Entscheidungsbaum: Wo entsteht die Latenzspitze?

Spiky Latency lässt sich oft durch eine strukturierte Trennung der Schichten eingrenzen: Client, Proxy/Sidecar, Netzwerk/Transport, Backend (DB/Cache), oder Applikationslogik. Arbeiten Sie mit klaren Fragen, die Sie mit Metriken belegen können.

Client-Sicht vs. Server-Sicht unterscheiden

Ist die Latenz clientseitig hoch, serverseitig aber normal? Dann ist Netzwerk, DNS, TLS, Proxy oder Client-Pooling wahrscheinlicher.
Ist die serverseitige Latenz ebenfalls hoch? Dann liegt das Problem eher in der Applikation oder ihren Dependencies.

Distributed Tracing ist besonders hilfreich, weil es die Zeitanteile pro Hop sichtbar macht. Als Referenz für Instrumentation und Telemetrie: OpenTelemetry Dokumentation.

Ist es Queueing oder Retransmission?

Queueing-Indikatoren: steigende In-Flight Requests, Thread/Worker-Auslastung, Connection Pool Exhaustion, steigende Backlog/Queue-Length, CPU nahe Sättigung.
Retransmission-Indikatoren: TCP Retransmissions, erhöhte RTT/Jitter, Packet Drops, Reset/Timeouts in Netzpfad.

Hypothesen-Checkliste: Häufige Ursachen für Latenzspitzen

Nutzen Sie diese Liste als „Shortlist“, nicht als endlose Sammlung. Ziel ist, schnell zwei bis drei plausible Hypothesen zu finden und dann Evidenz zu sammeln, bis eine Hypothese dominiert.

CPU-Saturation oder CPU-Throttling – einzelne Cores saturiert, SoftIRQ hoch, CFS throttling in Containern, Run Queue steigt.
Garbage Collection / Memory Pressure – GC-Pausen, Heap Growth, Swap, OOM-Killer in Nachbarschaft.
Connection Pool Exhaustion – zu wenige DB/HTTP Connections, hoher Churn, Keepalive falsch, Idle Timeouts.
DNS/Resolver-Spikes – hohe Resolver-Latenz, NXDOMAIN/Timeouts, CoreDNS überlastet, Cache Misses.
Load Balancer / Proxy Timeouts – Idle Timeout, Connection Reuse, HTTP/2 Stream Limits, Envoy Overload.
Datenbank-Locks oder Hot Partitions – kurzzeitige Lock Contention, Autovacuum/Compaction, IO-Spikes.
Cache Stampede – Misses steigen, DB wird belastet, Latenz explodiert in Wellen.
Netzwerk-Drops / Retransmits – Packet Drops, NIC-Ring voll, Node-IRQ-Saturation, MTU/Fragmentation.
Autoscaling-Effekte – HPA skaliert, Cold Start, Pod Scheduling, warm-up fehlt, Traffic verteilt sich ungleich.
Rate Limits / Quotas extern – 429, Retry-After, Backoff falsch, thundering herd.

Diagnose Schritt für Schritt: Welche Signale Sie je Kategorie prüfen

Der folgende Teil ist bewusst „runbookartig“: kurze Schritte, klarer Output. Arbeiten Sie pro Hypothese, bis Sie sie bestätigen oder verwerfen.

CPU-Saturation / Throttling

Prüfen: CPU pro Core, Load/Run Queue, SoftIRQ-Anteil, Container Throttling (falls Kubernetes).
Beleg: Spikes korrelieren mit CPU-Spikes oder Throttling-Events; In-Flight steigt; Latenz steigt.
Mitigation: Scale-out, CPU-Limits anpassen, IRQ/RSS-Tuning (falls Node), Overhead reduzieren (Logging/Tracing/Sidecars).

GC / Memory Pressure

Prüfen: GC-Pause-Duration, GC-Frequency, Heap/Resident Set, Page Faults, Swap.
Beleg: Latenzspikes fallen zeitlich mit GC-Pausen zusammen; CPU nicht zwingend hoch, aber Stop-the-world sichtbar.
Mitigation: Heap-Tuning, Object Allocation reduzieren, Request Limits, warm-up/Pooling, passende GC-Settings.

Connection Pools (DB, HTTP, gRPC)

Prüfen: Pool-Auslastung, Wait Time auf freie Connections, Connection Creation Rate, Keepalive, Idle Timeouts.
Beleg: Spikes korrelieren mit „pool wait“; Fehler sind oft Timeouts, nicht 5xx; Spikes bei Lastanstieg.
Mitigation: Pool-Größe erhöhen (mit Limits), Timeout-Alignment, Connection Reuse verbessern, Backpressure implementieren.

DNS/Resolver

Prüfen: Resolver-Latenz, Query Rate, Cache Hit/Miss, NXDOMAIN/Timeouts, CoreDNS CPU/Queue.
Beleg: Spikes betreffen vor allem Requests mit neuen Hostnames; Traces zeigen Latenz in DNS-Span.
Mitigation: DNS-Caching verbessern, TTL/Negative Caching prüfen, CoreDNS skalieren, NodeLocal DNS Cache erwägen.

Für CoreDNS und Kubernetes-DNS-Kontext sind die Kubernetes-Dokumentationen eine verlässliche Referenz: DNS for Services and Pods.

Proxy/Sidecar/Ingress/Load Balancer

Prüfen: Upstream/Downstream Latency, Retry-Rate, Connection Resets, Overload/Outlier Detection, HTTP/2 Limits.
Beleg: Sidecar-Metriken zeigen Queueing/Overload; Spikes korrelieren mit Retries oder Circuit Breaker Events.
Mitigation: Retry-Policy härten (Backoff, Budgets), Circuit Breaking, Timeout-Alignment, Ressourcen für Proxy erhöhen.

Wenn Envoy im Stack ist, helfen die offiziellen Stats- und Observability-Infos, um Metriken richtig zu lesen: Envoy Stats Overview.

Datenbank/Storage

Prüfen: DB-Query-Latenz (clientseitig), Locks/Waits, IO-Latenz, Connection Saturation, Slow Queries.
Beleg: Traces zeigen Zeit in DB-Spans; DB-Metriken zeigen Lock/IO-Spikes im gleichen Zeitfenster.
Mitigation: Query optimieren, Indizes, Read Replicas, Cache einsetzen/verbessern, Workload glätten.

Netzwerk-Drops / Retransmissions

Prüfen: Packet Drops (RX/TX), TCP Retransmissions, NIC-Stats, qdisc Drops/Backlog, Node IRQ/SoftIRQ.
Beleg: Retransmits steigen zeitgleich mit p99; Drops sichtbar auf betroffenen Nodes; Fehler oft Timeouts/Resets.
Mitigation: Node entlasten (Scale-out), IRQ-Affinität/RSS, MTU prüfen, qdisc anpassen, noisy neighbor isolieren.

Spikes periodisch? Prüfen Sie Scheduler- und Hintergrundjobs

Wenn Spiky Latency in festen Intervallen auftritt (z. B. jede Minute, alle 5 Minuten, stündlich), ist die Ursache häufig ein periodischer Trigger: CronJobs, Batch-Workloads, Logrotation, Metrics Scrapes, Cache Refreshes, DB Maintenance oder Autoscaler-Zyklen. Periodizität ist ein starkes Signal, das Sie nutzen sollten.

Prüfen: Job-Schedules, Deploy/Config-Controller, Backup/Compaction, Index-Rebuild, Zertifikatsrotation, Token Refresh.
Beleg: Spikes decken sich zeitlich mit Job-Start; Ressourcenindikatoren steigen synchron.
Mitigation: Jobs entkoppeln, jitter einführen, Rate begrenzen, Ressourcen reservieren, Prioritäten setzen.

Mitigation-Strategie: Stabilisieren, dann verbessern

Im Incident zählt zuerst Stabilität. Verbesserungen (Optimierung, Refactoring) gehören später in die Nacharbeit. Priorisieren Sie Maßnahmen nach Wirkung und Risiko.

Traffic reduzieren oder verschieben: Rate Limits, Feature Degradation, Canary stoppen, Traffic Shifting auf gesunde Pools.
Retry-Last begrenzen: Retries reduzieren, Backoff erhöhen, Retry-Budgets einführen, Circuit Breaker aktivieren.
Kapazität erhöhen: Scale-out (Pods/Nodes), Ressourcen für kritische Komponenten (Proxy/DB) erhöhen.
Timeouts alignen: App ↔ Proxy ↔ LB konsistent, damit keine „Kaskade“ entsteht, in der ein Layer zu früh abbricht.
Hotspot isolieren: betroffene Nodes drainen, noisy neighbor verschieben, Pod-Affinität/Anti-Affinität anpassen.

Post-Incident-Output: Welche Artefakte das Runbook zwingend fordert

Ein Runbook ist nur dann nachhaltig, wenn es klar definiert, welche Ergebnisse nach dem Incident geliefert werden. Das ist keine „Schlussfolgerung“, sondern Teil der Betriebsfähigkeit: Ohne Artefakte wiederholt sich Spiky Latency, weil Learnings nicht umgesetzt werden.

Root-Cause-Statement mit Evidenz – welche Metriken/Traces belegen die Ursache?
Timeline – wann begann der Spike, welche Changes liefen, wann wirkten Mitigations?
Guardrails – welche Limits/Alerts verhindern Wiederholung (Retry Budgets, Pool Limits, Autoscaling Regeln)?
Messlücken – welche Metriken fehlten (z. B. Pool Wait Time, DNS-Latenz, Retransmits pro Node)?

Outbound-Quellen für vertiefende Grundlagen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.