Golden Signals für network-aware SRE (Latenz, Errors, Saturation, Drops)

Golden Signals sind für SRE-Teams ein bewährtes Prinzip, um in verteilten Systemen schnell zu erkennen, ob ein Problem Nutzerinnen und Nutzer betrifft und wo die Ursache wahrscheinlich liegt. Für „network-aware“ Teams reicht jedoch das klassische Set (Latenz, Traffic, Errors, Saturation) oft nicht aus, weil ein großer Teil moderner Incidents durch Netzwerkeffekte verstärkt oder sogar ausgelöst wird: Paketverluste, Drops im Kernel, überlaufende Conntrack-Tabellen, DNS-Fehler, TLS-Handshakes, MTU-Probleme oder asymmetrisches Routing. Genau hier setzen Golden Signals für network-aware SRE an: Sie verbinden SRE-Observability mit Netzwerk-Telemetrie und machen sichtbar, ob ein Incident „wirklich Applikation“ ist – oder ob die App nur Symptome eines Netzwerkpfads zeigt. In diesem Artikel erhalten Sie ein praxistaugliches Modell, welche Signale Sie minimal pro Service und pro Plattform erfassen sollten, wie Sie sie sinnvoll aggregieren (p95/p99 statt Mittelwert), wie Sie Korrelationen sauber interpretieren und welche typischen Fehlinterpretationen Sie vermeiden. Ziel ist ein Signal-Set, das im Incident zuverlässig führt: von User Impact über Fehlerklassen und Latenzpfade bis zur konkreten Stelle, an der Drops und Sättigung entstehen.

Table of Contents

Warum network-aware Golden Signals ein eigenes Modell brauchen

In Cloud- und Kubernetes-Umgebungen sind „Netzwerkprobleme“ selten ein einzelner defekter Switch. Häufiger sind es dynamische Effekte: Skalierung, Sidecars, NAT, Load Balancer, Policies, Kernel-Parameter oder Limits, die erst unter Last sichtbar werden. Klassische Golden Signals zeigen dann zwar, dass etwas nicht stimmt (z. B. p99-Latenz steigt), aber nicht warum. Network-aware Golden Signals ergänzen daher zwei Perspektiven:

  • Pfadperspektive: Wo im Request-Pfad entsteht Wartezeit oder Verlust? (Client → DNS → TLS → LB/Ingress → Node → Pod → Upstream)
  • Loss-&-Queue-Perspektive: Welche Warteschlangen, Drops oder Retransmits erklären Tail-Latenz und Timeouts?

Als Grundlagen zur SRE-Messphilosophie sind diese Ressourcen hilfreich: Monitoring verteilter Systeme im SRE Book und als Ergänzung für moderne Telemetrie: OpenTelemetry Dokumentation.

Signal 1: Latenz – aber „pfadbasiert“ statt nur servicebasiert

Latenz ist das sichtbarste Symptom im Incident, aber ohne Zerlegung oft nicht handlungsleitend. Network-aware SRE denkt Latenz als Summe von Teilzeiten entlang des Pfads: Namensauflösung, Verbindungsaufbau, TLS, Warteschlangen, Upstream-Calls und Response-Transfer. Der wichtigste Praxispunkt: Nutzen Sie Perzentile (p50/p95/p99) und betrachten Sie Latenz immer gemeinsam mit Drops, Retransmits und Sättigung.

Pflichtmetriken für Latenz

  • Request Duration (p50/p95/p99): auf Service-Ebene pro Endpoint/Operation
  • Upstream Call Duration: pro Dependency (DB, Cache, externe API), ebenfalls p95/p99
  • TCP Connect Time: Zeit bis Socket-Verbindung steht (Hinweis auf SYN-Retries, LB-Probleme, Port Exhaustion)
  • TLS Handshake Time: besonders relevant bei mTLS/Service Mesh
  • DNS Lookup Time: Latenz und Timeouts bei Resolvern

Heuristik: Latenz in Teilzeiten aufteilen

Wenn Sie Latenz an mehreren Stellen messen (Client, Sidecar/Proxy, Ingress, Service), können Sie grob abschätzen, wo Zeit „verschwindet“. Ein einfaches Modell ist die Differenz zwischen Gesamtzeit und Upstream-Zeiten:

T=T_dns +T_connect +T_tls +T_queue +T_app +T_upstream +T_transfer

Sie müssen nicht jede Komponente perfekt messen. Entscheidend ist, dass Sie für Incidents wiederkehrend erkennen: „Es ist Connect/TLS/DNS“ vs. „Es ist Queueing/Überlast“ vs. „Es ist Upstream“. Als Standard für Trace-Korrelation ist W3C Trace Context eine solide Basis.

Signal 2: Errors – Fehlerklassen so definieren, dass Netzwerk sichtbar wird

Fehler sind im network-aware Kontext nicht nur HTTP 5xx. Viele netzwerkbezogene Incidents äußern sich als Timeouts, Resets, „upstream connect error“, „no route to host“, „connection refused“ oder sporadische Retries. Eine gute Error-Taxonomie ist daher Pflicht, sonst vermischen sich Anwendungsfehler mit Transportfehlern.

Empfohlene Error-Kategorien

  • Application Errors: 5xx aus der App, Exceptions, Business-Fehler (falls relevant)
  • Upstream Errors: 5xx/4xx von Dependencies, „circuit open“, „no healthy upstream“
  • Timeouts: Client-Timeout, Proxy-Timeout, Ingress/LB-Timeout, Upstream-Timeout
  • Transport Errors: TCP Reset, TLS Handshake Failure, Connection Refused, DNS Failure
  • Policy/Access Errors: 401/403, mTLS auth failure, NetworkPolicy/ACL block

Warum Timeouts separat behandelt werden sollten

Timeouts sind häufig die „Endform“ vieler Ursachen. Ein DNS-Problem, ein Paketverlust oder ein überlasteter Node kann am Ende als Timeout erscheinen. Für Incident-Readiness gilt: Timeouts müssen nach Layer und Quelle unterscheidbar sein (App, Sidecar/Proxy, Ingress/LB, Upstream). Damit vermeiden Sie die typische Falle, Timeouts vorschnell als „langsame Datenbank“ zu interpretieren.

Signal 3: Saturation – Sättigung als Ursache von Queueing, Drops und Tail-Latenz

Sättigung ist im Netzwerk-Kontext mehrdimensional. Neben CPU und Memory beeinflussen Kernel-Queues, NIC-Ring-Puffer, Conntrack, Ephemeral Ports, Socket-Backlogs und Proxy-Threadpools die beobachtete Latenz und Fehlerquote. Network-aware SRE betrachtet Saturation daher nicht nur „pro Pod“, sondern entlang der Datenpfad-Komponenten.

Pflichtmetriken für Saturation (compute-nahe Signale)

  • CPU Throttling: CFS-Throttling auf Container/Pod-Ebene (führt zu Jitter und Drops durch verzögerte Packet Processing)
  • Run Queue / Load: Hinweis auf Scheduling-Verzögerungen und IRQ-Verarbeitung
  • Memory Pressure: OOM-Kills, Page Faults, GC-Spitzen
  • Network Interrupt/SoftIRQ Pressure: wenn verfügbar, Indikator für überlastete Packet-Processing-Pfade

Pflichtmetriken für Saturation (netzwerk- und kernel-nahe Signale)

  • Conntrack Utilization: Auslastung/Drop-Counts, „conntrack full“ als harter Indikator
  • Socket Backlog / Listen Queue: SYN-Backlog, Accept-Queue, Listen Overflows
  • Ephemeral Port Exhaustion: Port-Usage, TIME_WAIT-Last (besonders bei egress-heavy Services)
  • Proxy Saturation: Sidecar CPU, Worker Queue, Upstream Connection Pool Exhaustion

Signal 4: Drops – der network-aware „vierte Pfeiler“

Für network-aware SRE ist „Drops“ ein eigenständiges Golden Signal, weil Drops (oder indirekt Retransmits) oft die Ursache für unzuverlässige Kommunikation und Tail-Latenz sind. Wichtig ist, Drops nicht nur auf physischer Ebene zu betrachten. In modernen Plattformen entstehen Drops auch durch Policies, Kernel-Limits oder überlastete Komponenten, die Pakete verwerfen, bevor sie die Anwendung erreichen.

Welche Drop-Arten relevant sind

  • Interface Drops: RX/TX Drops am Node (NIC, Treiber, Ring Buffer)
  • Kernel Drops: Verworfen durch Kernel-Queues, Buffer-Engpässe, UDP-Loss
  • CNI/Dataplane Drops: durch eBPF/iptables/ipvs-Regeln, Encapsulation, Policy Enforcement
  • Policy Drops: NetworkPolicy, Security Groups/NACLs, Firewall-Regeln (logisch „Drop“)
  • Proxy Drops/Resets: Envoy/Ingress schließt Verbindungen, Upstream Resets

Drops vs. Retransmits: Was ist einfacher zu nutzen?

Drops sind nicht immer direkt sichtbar, weil nicht jede Ebene den Verlust zählt. Retransmits hingegen sind ein brauchbarer Proxy-Indikator, weil TCP bei Verlust nachsendet. Wenn Retransmits steigen und gleichzeitig p99-Latenz steigt, ist ein Netzwerkpfad als Ursache plausibel – besonders, wenn CPU/Conntrack ebenfalls unter Druck stehen.

Mapping: Golden Signals entlang der Layer (praktische OSI-Nähe)

Ein häufiger Fehler ist, Netzwerk-Telemetrie isoliert zu betrachten. Network-aware Golden Signals funktionieren am besten, wenn Sie Signale entlang von Layern oder Pfadstationen strukturieren. So entstehen „Drilldown-Pfade“, die im Incident schnelle Entscheidungen ermöglichen.

  • L3/L4 (IP/TCP/UDP): Retransmits, Resets, Packet Loss Indikatoren, Connection Errors, Conntrack
  • L5/L6 (TLS/mTLS): Handshake Errors, Cert Expiry, SNI/ALPN Mismatches, Handshake Latenz
  • L7 (HTTP/gRPC): Statuscodes, Upstream Errors, Request Duration, Retry-Rate, Rate-Limits

Minimal-Set pro Service: Das „Incident-taugliche“ Baseline-Template

Wenn Sie nicht alles sofort instrumentieren können, starten Sie mit einem Minimal-Set, das in fast jeder Umgebung verfügbar ist. Entscheidend ist Konsistenz: gleiche Labels (Service, Region, Cluster, Version), gleiche Perzentile, gleiche Zeitfenster.

  • Latenz: p50/p95/p99 Request Duration; p95/p99 Upstream Duration pro Dependency; DNS/TLS/Connect, sofern messbar
  • Errors: Error Rate gesamt; Breakdown (5xx/4xx/Timeout/Transport); Top Endpoints
  • Saturation: CPU/Throttling; Memory/OOM; Inflight/Concurrency; Connection Pool Utilization
  • Drops: Retransmits/Resets; Conntrack Utilization/Drops; Node RX/TX Drops (wenn verfügbar)

Interpretation im Incident: Korrelationen, die wirklich funktionieren

Die Stärke network-aware Golden Signals liegt in robusten Korrelationen. Diese Muster sind in der Praxis besonders zuverlässig, wenn Sie sie als „Diagnose-Shortcuts“ nutzen.

Muster A: p99 steigt + Retransmits steigen + Errors steigen

  • Interpretation: Verlust oder instabiler Pfad wahrscheinlich
  • Typische Ursachen: Überlastete Nodes (SoftIRQ), CNI/Dataplane-Probleme, MTU/Fragmentierung, LB/Ingress-Engpässe
  • Nächster Schritt: Drops/Resets nach Node/Zone/Cluster segmentieren; prüfen, ob nur bestimmte Pfade betroffen sind

Muster B: p99 steigt + CPU Throttling/Run Queue steigt + Drops steigen

  • Interpretation: Compute-Sättigung wirkt auf Netzwerkverarbeitung (Packet Processing wird verzögert)
  • Typische Ursachen: Zu kleine Requests/limits, noisy neighbor, überlastete Sidecars
  • Nächster Schritt: Sidecar vs. App CPU vergleichen; Node Pressure prüfen; HPA/VPA-Entscheidung ableiten

Muster C: Timeouts steigen + DNS Latenz/Errors steigen

  • Interpretation: DNS als Engpass oder Failure Mode
  • Typische Ursachen: Resolver überlastet, NXDOMAIN/SERVFAIL-Spitzen, falsche Suchdomains, UDP-Loss
  • Nächster Schritt: DNS QPS, Cache Hit Rate, CoreDNS/Resolver Health, Upstream-Resolver prüfen

Muster D: TLS Handshake Time steigt + Handshake Failures steigen

  • Interpretation: mTLS/TLS-Problem oder Kapazitätsgrenze im Proxy/Ingress
  • Typische Ursachen: Zertifikatsprobleme, ALPN/SNI, zu aggressive Connection Reuse-Settings, Proxy Saturation
  • Nächster Schritt: Segmentieren nach Destination/Endpoint; Proxy-Worker und Connection Pools prüfen

Dashboards, die nicht täuschen: Visualisierung und Aggregation

Die beste Metrik nützt wenig, wenn sie falsch visualisiert wird. Für Golden Signals im Netzwerk-Kontext gelten einige einfache Regeln:

  • Perzentile statt Mittelwert: p95/p99 sind incident-relevant
  • Segmentierung als Standard: Region/Zone/Cluster/Node/Endpoint
  • Annotationen: Deployments, Policy- und Konfigänderungen auf den Kerncharts
  • Einheitliche Zeitfenster: kurz (15–60 min) plus Kontext (6–24 h)
  • Top-N Driver Panels: „Welche 5 Endpoints/Nodes verursachen den Großteil?“

Typische Fehlinterpretationen und wie Sie sie vermeiden

Network-aware Observability scheitert oft an falschen Schlussfolgerungen. Diese Stolperfallen begegnen SRE-Teams regelmäßig:

  • „Ping ist gut, also ist das Netzwerk gut“: ICMP sagt wenig über TCP/TLS/L7-Pfade und Drops unter Last aus.
  • „Timeout = langsame App“: Timeouts sind häufig Folge von DNS/TLS/Conntrack/Queueing – klassifizieren und korrelieren.
  • „Nur Server-Metriken zählen“: Client-seitige Upstream-Metriken sind oft die schnellere Wahrheit bei Dependencies.
  • „Drops sind überall gleich“: Segmentierung ist Pflicht; oft ist nur eine Zone, ein Node Pool oder ein NAT-Gateway betroffen.
  • „Retries helfen immer“: Retries können Drops und Sättigung verstärken; Retry-Rate ist selbst ein Signal.

Praktische Umsetzung: Instrumentierung und Quellen der Signale

Je nach Stack können die Signale aus verschiedenen Quellen kommen: Application Metrics, Proxy/Ingress-Metriken, Kernel/Node-Exporter, CNI-Telemetrie oder Flow-Logs. Wichtig ist nicht der Toolname, sondern die Konsistenz der Semantik.

  • Application: Request Duration, Statuscodes, Upstream Timings, Timeout-Klassen
  • Ingress/Proxy/Sidecar: Upstream Errors, Retries, Connection Pool, TLS Handshake, L7 Latency
  • Node/Kernel: Drops, Retransmits (indirekt), Conntrack, Socket Backlogs, CPU/IRQ Pressure
  • DNS: QPS, Error Rate, Latenz, Cache Hit Rate

Wenn Sie Standards für Metrik- und Trace-Erfassung suchen, bietet die OpenTelemetry Spezifikation eine gute Orientierung, insbesondere für konsistente Attribute und Kontextpropagation.

Checkliste: Golden Signals für network-aware SRE (Copy-Paste)

  • Latenz: p50/p95/p99 Request Duration; p95/p99 pro Upstream; DNS/TLS/Connect Times (falls möglich)
  • Errors: Error Rate; Timeout Rate (nach Layer); Transport Errors (reset/refused/dns/tls); Policy Errors
  • Saturation: CPU/Throttling; Memory Pressure; Inflight/Concurrency; Connection Pools; Conntrack Utilization
  • Drops: Node RX/TX Drops; Conntrack Drops; Retransmits/Resets als Proxy; CNI/Policy Drops (wenn verfügbar)
  • Segmentierung: Region/Zone/Cluster/Node/Endpoint/Version als Pflichtdimensionen
  • Incident-UX: Top-N Driver Panels, Change-Annotationen, zwei Zeitfenster (kurz/lang)

Weiterführende Ressourcen (Outbound)

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

  • Netzwerkdesign & Topologie-Planung

  • Router- & Switch-Konfiguration (Cisco IOS)

  • VLAN, Inter-VLAN Routing

  • OSPF, RIP, EIGRP (Grundlagen & Implementierung)

  • NAT, ACL, DHCP, DNS-Konfiguration

  • Troubleshooting & Netzwerkoptimierung

  • Packet Tracer Projektentwicklung & Dokumentation

  • CCNA Lern- & Praxisunterstützung

Lieferumfang:

  • Konfigurationsdateien

  • Packet-Tracer-Dateien (.pkt)

  • Netzwerkdokumentation

  • Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

 

Related Articles