Golden Signals für network-aware SRE (Latenz, Errors, Saturation, Drops)

Red Snapper

1 month ago

Golden Signals sind für SRE-Teams ein bewährtes Prinzip, um in verteilten Systemen schnell zu erkennen, ob ein Problem Nutzerinnen und Nutzer betrifft und wo die Ursache wahrscheinlich liegt. Für „network-aware“ Teams reicht jedoch das klassische Set (Latenz, Traffic, Errors, Saturation) oft nicht aus, weil ein großer Teil moderner Incidents durch Netzwerkeffekte verstärkt oder sogar ausgelöst wird: Paketverluste, Drops im Kernel, überlaufende Conntrack-Tabellen, DNS-Fehler, TLS-Handshakes, MTU-Probleme oder asymmetrisches Routing. Genau hier setzen Golden Signals für network-aware SRE an: Sie verbinden SRE-Observability mit Netzwerk-Telemetrie und machen sichtbar, ob ein Incident „wirklich Applikation“ ist – oder ob die App nur Symptome eines Netzwerkpfads zeigt. In diesem Artikel erhalten Sie ein praxistaugliches Modell, welche Signale Sie minimal pro Service und pro Plattform erfassen sollten, wie Sie sie sinnvoll aggregieren (p95/p99 statt Mittelwert), wie Sie Korrelationen sauber interpretieren und welche typischen Fehlinterpretationen Sie vermeiden. Ziel ist ein Signal-Set, das im Incident zuverlässig führt: von User Impact über Fehlerklassen und Latenzpfade bis zur konkreten Stelle, an der Drops und Sättigung entstehen.

Warum network-aware Golden Signals ein eigenes Modell brauchen

In Cloud- und Kubernetes-Umgebungen sind „Netzwerkprobleme“ selten ein einzelner defekter Switch. Häufiger sind es dynamische Effekte: Skalierung, Sidecars, NAT, Load Balancer, Policies, Kernel-Parameter oder Limits, die erst unter Last sichtbar werden. Klassische Golden Signals zeigen dann zwar, dass etwas nicht stimmt (z. B. p99-Latenz steigt), aber nicht warum. Network-aware Golden Signals ergänzen daher zwei Perspektiven:

Pfadperspektive: Wo im Request-Pfad entsteht Wartezeit oder Verlust? (Client → DNS → TLS → LB/Ingress → Node → Pod → Upstream)
Loss-&-Queue-Perspektive: Welche Warteschlangen, Drops oder Retransmits erklären Tail-Latenz und Timeouts?

Als Grundlagen zur SRE-Messphilosophie sind diese Ressourcen hilfreich: Monitoring verteilter Systeme im SRE Book und als Ergänzung für moderne Telemetrie: OpenTelemetry Dokumentation.

Signal 1: Latenz – aber „pfadbasiert“ statt nur servicebasiert

Latenz ist das sichtbarste Symptom im Incident, aber ohne Zerlegung oft nicht handlungsleitend. Network-aware SRE denkt Latenz als Summe von Teilzeiten entlang des Pfads: Namensauflösung, Verbindungsaufbau, TLS, Warteschlangen, Upstream-Calls und Response-Transfer. Der wichtigste Praxispunkt: Nutzen Sie Perzentile (p50/p95/p99) und betrachten Sie Latenz immer gemeinsam mit Drops, Retransmits und Sättigung.

Pflichtmetriken für Latenz

Request Duration (p50/p95/p99): auf Service-Ebene pro Endpoint/Operation
Upstream Call Duration: pro Dependency (DB, Cache, externe API), ebenfalls p95/p99
TCP Connect Time: Zeit bis Socket-Verbindung steht (Hinweis auf SYN-Retries, LB-Probleme, Port Exhaustion)
TLS Handshake Time: besonders relevant bei mTLS/Service Mesh
DNS Lookup Time: Latenz und Timeouts bei Resolvern

Heuristik: Latenz in Teilzeiten aufteilen

Wenn Sie Latenz an mehreren Stellen messen (Client, Sidecar/Proxy, Ingress, Service), können Sie grob abschätzen, wo Zeit „verschwindet“. Ein einfaches Modell ist die Differenz zwischen Gesamtzeit und Upstream-Zeiten:

T=T_dns +T_connect +T_tls +T_queue +T_app +T_upstream +T_transfer

Sie müssen nicht jede Komponente perfekt messen. Entscheidend ist, dass Sie für Incidents wiederkehrend erkennen: „Es ist Connect/TLS/DNS“ vs. „Es ist Queueing/Überlast“ vs. „Es ist Upstream“. Als Standard für Trace-Korrelation ist W3C Trace Context eine solide Basis.

Signal 2: Errors – Fehlerklassen so definieren, dass Netzwerk sichtbar wird

Fehler sind im network-aware Kontext nicht nur HTTP 5xx. Viele netzwerkbezogene Incidents äußern sich als Timeouts, Resets, „upstream connect error“, „no route to host“, „connection refused“ oder sporadische Retries. Eine gute Error-Taxonomie ist daher Pflicht, sonst vermischen sich Anwendungsfehler mit Transportfehlern.

Empfohlene Error-Kategorien

Application Errors: 5xx aus der App, Exceptions, Business-Fehler (falls relevant)
Upstream Errors: 5xx/4xx von Dependencies, „circuit open“, „no healthy upstream“
Timeouts: Client-Timeout, Proxy-Timeout, Ingress/LB-Timeout, Upstream-Timeout
Transport Errors: TCP Reset, TLS Handshake Failure, Connection Refused, DNS Failure
Policy/Access Errors: 401/403, mTLS auth failure, NetworkPolicy/ACL block

Warum Timeouts separat behandelt werden sollten

Timeouts sind häufig die „Endform“ vieler Ursachen. Ein DNS-Problem, ein Paketverlust oder ein überlasteter Node kann am Ende als Timeout erscheinen. Für Incident-Readiness gilt: Timeouts müssen nach Layer und Quelle unterscheidbar sein (App, Sidecar/Proxy, Ingress/LB, Upstream). Damit vermeiden Sie die typische Falle, Timeouts vorschnell als „langsame Datenbank“ zu interpretieren.

Signal 3: Saturation – Sättigung als Ursache von Queueing, Drops und Tail-Latenz

Sättigung ist im Netzwerk-Kontext mehrdimensional. Neben CPU und Memory beeinflussen Kernel-Queues, NIC-Ring-Puffer, Conntrack, Ephemeral Ports, Socket-Backlogs und Proxy-Threadpools die beobachtete Latenz und Fehlerquote. Network-aware SRE betrachtet Saturation daher nicht nur „pro Pod“, sondern entlang der Datenpfad-Komponenten.

Pflichtmetriken für Saturation (compute-nahe Signale)

CPU Throttling: CFS-Throttling auf Container/Pod-Ebene (führt zu Jitter und Drops durch verzögerte Packet Processing)
Run Queue / Load: Hinweis auf Scheduling-Verzögerungen und IRQ-Verarbeitung
Memory Pressure: OOM-Kills, Page Faults, GC-Spitzen
Network Interrupt/SoftIRQ Pressure: wenn verfügbar, Indikator für überlastete Packet-Processing-Pfade

Pflichtmetriken für Saturation (netzwerk- und kernel-nahe Signale)

Conntrack Utilization: Auslastung/Drop-Counts, „conntrack full“ als harter Indikator
Socket Backlog / Listen Queue: SYN-Backlog, Accept-Queue, Listen Overflows
Ephemeral Port Exhaustion: Port-Usage, TIME_WAIT-Last (besonders bei egress-heavy Services)
Proxy Saturation: Sidecar CPU, Worker Queue, Upstream Connection Pool Exhaustion

Signal 4: Drops – der network-aware „vierte Pfeiler“

Für network-aware SRE ist „Drops“ ein eigenständiges Golden Signal, weil Drops (oder indirekt Retransmits) oft die Ursache für unzuverlässige Kommunikation und Tail-Latenz sind. Wichtig ist, Drops nicht nur auf physischer Ebene zu betrachten. In modernen Plattformen entstehen Drops auch durch Policies, Kernel-Limits oder überlastete Komponenten, die Pakete verwerfen, bevor sie die Anwendung erreichen.

Welche Drop-Arten relevant sind

Interface Drops: RX/TX Drops am Node (NIC, Treiber, Ring Buffer)
Kernel Drops: Verworfen durch Kernel-Queues, Buffer-Engpässe, UDP-Loss
CNI/Dataplane Drops: durch eBPF/iptables/ipvs-Regeln, Encapsulation, Policy Enforcement
Policy Drops: NetworkPolicy, Security Groups/NACLs, Firewall-Regeln (logisch „Drop“)
Proxy Drops/Resets: Envoy/Ingress schließt Verbindungen, Upstream Resets

Drops vs. Retransmits: Was ist einfacher zu nutzen?

Drops sind nicht immer direkt sichtbar, weil nicht jede Ebene den Verlust zählt. Retransmits hingegen sind ein brauchbarer Proxy-Indikator, weil TCP bei Verlust nachsendet. Wenn Retransmits steigen und gleichzeitig p99-Latenz steigt, ist ein Netzwerkpfad als Ursache plausibel – besonders, wenn CPU/Conntrack ebenfalls unter Druck stehen.

Mapping: Golden Signals entlang der Layer (praktische OSI-Nähe)

Ein häufiger Fehler ist, Netzwerk-Telemetrie isoliert zu betrachten. Network-aware Golden Signals funktionieren am besten, wenn Sie Signale entlang von Layern oder Pfadstationen strukturieren. So entstehen „Drilldown-Pfade“, die im Incident schnelle Entscheidungen ermöglichen.

L3/L4 (IP/TCP/UDP): Retransmits, Resets, Packet Loss Indikatoren, Connection Errors, Conntrack
L5/L6 (TLS/mTLS): Handshake Errors, Cert Expiry, SNI/ALPN Mismatches, Handshake Latenz
L7 (HTTP/gRPC): Statuscodes, Upstream Errors, Request Duration, Retry-Rate, Rate-Limits

Minimal-Set pro Service: Das „Incident-taugliche“ Baseline-Template

Wenn Sie nicht alles sofort instrumentieren können, starten Sie mit einem Minimal-Set, das in fast jeder Umgebung verfügbar ist. Entscheidend ist Konsistenz: gleiche Labels (Service, Region, Cluster, Version), gleiche Perzentile, gleiche Zeitfenster.

Latenz: p50/p95/p99 Request Duration; p95/p99 Upstream Duration pro Dependency; DNS/TLS/Connect, sofern messbar
Errors: Error Rate gesamt; Breakdown (5xx/4xx/Timeout/Transport); Top Endpoints
Saturation: CPU/Throttling; Memory/OOM; Inflight/Concurrency; Connection Pool Utilization
Drops: Retransmits/Resets; Conntrack Utilization/Drops; Node RX/TX Drops (wenn verfügbar)

Interpretation im Incident: Korrelationen, die wirklich funktionieren

Die Stärke network-aware Golden Signals liegt in robusten Korrelationen. Diese Muster sind in der Praxis besonders zuverlässig, wenn Sie sie als „Diagnose-Shortcuts“ nutzen.

Muster A: p99 steigt + Retransmits steigen + Errors steigen

Interpretation: Verlust oder instabiler Pfad wahrscheinlich
Typische Ursachen: Überlastete Nodes (SoftIRQ), CNI/Dataplane-Probleme, MTU/Fragmentierung, LB/Ingress-Engpässe
Nächster Schritt: Drops/Resets nach Node/Zone/Cluster segmentieren; prüfen, ob nur bestimmte Pfade betroffen sind

Muster B: p99 steigt + CPU Throttling/Run Queue steigt + Drops steigen

Interpretation: Compute-Sättigung wirkt auf Netzwerkverarbeitung (Packet Processing wird verzögert)
Typische Ursachen: Zu kleine Requests/limits, noisy neighbor, überlastete Sidecars
Nächster Schritt: Sidecar vs. App CPU vergleichen; Node Pressure prüfen; HPA/VPA-Entscheidung ableiten

Muster C: Timeouts steigen + DNS Latenz/Errors steigen

Interpretation: DNS als Engpass oder Failure Mode
Typische Ursachen: Resolver überlastet, NXDOMAIN/SERVFAIL-Spitzen, falsche Suchdomains, UDP-Loss
Nächster Schritt: DNS QPS, Cache Hit Rate, CoreDNS/Resolver Health, Upstream-Resolver prüfen

Muster D: TLS Handshake Time steigt + Handshake Failures steigen

Interpretation: mTLS/TLS-Problem oder Kapazitätsgrenze im Proxy/Ingress
Typische Ursachen: Zertifikatsprobleme, ALPN/SNI, zu aggressive Connection Reuse-Settings, Proxy Saturation
Nächster Schritt: Segmentieren nach Destination/Endpoint; Proxy-Worker und Connection Pools prüfen

Dashboards, die nicht täuschen: Visualisierung und Aggregation

Die beste Metrik nützt wenig, wenn sie falsch visualisiert wird. Für Golden Signals im Netzwerk-Kontext gelten einige einfache Regeln:

Perzentile statt Mittelwert: p95/p99 sind incident-relevant
Segmentierung als Standard: Region/Zone/Cluster/Node/Endpoint
Annotationen: Deployments, Policy- und Konfigänderungen auf den Kerncharts
Einheitliche Zeitfenster: kurz (15–60 min) plus Kontext (6–24 h)
Top-N Driver Panels: „Welche 5 Endpoints/Nodes verursachen den Großteil?“

Typische Fehlinterpretationen und wie Sie sie vermeiden

Network-aware Observability scheitert oft an falschen Schlussfolgerungen. Diese Stolperfallen begegnen SRE-Teams regelmäßig:

„Ping ist gut, also ist das Netzwerk gut“: ICMP sagt wenig über TCP/TLS/L7-Pfade und Drops unter Last aus.
„Timeout = langsame App“: Timeouts sind häufig Folge von DNS/TLS/Conntrack/Queueing – klassifizieren und korrelieren.
„Nur Server-Metriken zählen“: Client-seitige Upstream-Metriken sind oft die schnellere Wahrheit bei Dependencies.
„Drops sind überall gleich“: Segmentierung ist Pflicht; oft ist nur eine Zone, ein Node Pool oder ein NAT-Gateway betroffen.
„Retries helfen immer“: Retries können Drops und Sättigung verstärken; Retry-Rate ist selbst ein Signal.

Praktische Umsetzung: Instrumentierung und Quellen der Signale

Je nach Stack können die Signale aus verschiedenen Quellen kommen: Application Metrics, Proxy/Ingress-Metriken, Kernel/Node-Exporter, CNI-Telemetrie oder Flow-Logs. Wichtig ist nicht der Toolname, sondern die Konsistenz der Semantik.

Application: Request Duration, Statuscodes, Upstream Timings, Timeout-Klassen
Ingress/Proxy/Sidecar: Upstream Errors, Retries, Connection Pool, TLS Handshake, L7 Latency
Node/Kernel: Drops, Retransmits (indirekt), Conntrack, Socket Backlogs, CPU/IRQ Pressure
DNS: QPS, Error Rate, Latenz, Cache Hit Rate

Wenn Sie Standards für Metrik- und Trace-Erfassung suchen, bietet die OpenTelemetry Spezifikation eine gute Orientierung, insbesondere für konsistente Attribute und Kontextpropagation.

Checkliste: Golden Signals für network-aware SRE (Copy-Paste)

Latenz: p50/p95/p99 Request Duration; p95/p99 pro Upstream; DNS/TLS/Connect Times (falls möglich)
Errors: Error Rate; Timeout Rate (nach Layer); Transport Errors (reset/refused/dns/tls); Policy Errors
Saturation: CPU/Throttling; Memory Pressure; Inflight/Concurrency; Connection Pools; Conntrack Utilization
Drops: Node RX/TX Drops; Conntrack Drops; Retransmits/Resets als Proxy; CNI/Policy Drops (wenn verfügbar)
Segmentierung: Region/Zone/Cluster/Node/Endpoint/Version als Pflichtdimensionen
Incident-UX: Top-N Driver Panels, Change-Annotationen, zwei Zeitfenster (kurz/lang)

Weiterführende Ressourcen (Outbound)

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.