Golden Signals für network-aware SREs

Red Snapper

1 month ago

Golden Signals für network-aware SREs sind ein praktisches Framework, um Incidents in verteilten Systemen schnell zu verstehen, ohne in Einzelmetriken zu ertrinken. Klassisch stehen dabei vier Signale im Fokus: Latenz, Traffic, Fehler und Sättigung. Für SREs mit Netzwerkfokus reicht diese Standardform jedoch oft nicht aus, weil viele Produktionsprobleme nicht sauber in „App kaputt“ oder „Service langsam“ fallen. Ein scheinbar reiner Timeout kann durch DNS-Latenz entstehen, durch MTU-Mismatch, durch Conntrack-Druck, durch überlastete NAT-Gateways, durch Paketdrops auf einzelnen Nodes oder durch ein Load-Balancer-Idle-Timeout. Network-aware SREs erweitern die Golden Signals deshalb so, dass sie Transport- und Pfadrealitäten sichtbar machen: Was passiert auf Layer 3/4, welche Failure Domain ist betroffen, und welche Metriken erlauben eine klare Abgrenzung zwischen Underlay, Proxy/Service Mesh und Applikation? Dieser Artikel zeigt, wie Sie Golden Signals so definieren und instrumentieren, dass sie sowohl für Einsteiger verständlich als auch für fortgeschrittene On-Call-Rollen handlungsfähig sind: mit konkreten Metriken, sinnvollen Aggregationen, typischen Fehlinterpretationen und einem verlässlichen Diagnosepfad, der im Incident Zeit spart.

Warum klassische Golden Signals im Netzwerk-Kontext oft zu grob sind

Die vier klassischen Golden Signals sind bewusst universell. Genau das ist ihre Stärke, aber auch ihre Schwäche: Sie sind nicht spezifisch genug, um typische Netzwerkfehler eindeutig einzuordnen. Beispiele aus der Praxis:

Latenz steigt, aber nur in einer Zone: Ohne Failure-Domain-Sicht wirkt es wie ein globales App-Problem.
Fehler steigen, aber nur bei großen Requests: Ohne MTU-/Fragmentierungsindikatoren sieht es wie ein zufälliger Bug aus.
Traffic sinkt, aber weil DNS nicht auflöst: Ohne DNS-Signale interpretieren Teams das als „Nutzer weg“ statt „Nutzer kommt nicht durch“.
Sättigung steigt, aber in SoftIRQ/Conntrack statt CPU der App: Ohne Node-/Kernel-Signale wird falsch skaliert.

Network-aware SREs behalten die vier Grundsignale bei, ergänzen aber definierte Subsignale und Splits, die Netzwerkursachen sichtbar machen, ohne das Dashboard zu überladen.

Das Grundmodell bleibt: Latenz, Traffic, Fehler, Sättigung

Auch im Netzwerkfokus sind die Golden Signals das Fundament. Entscheidend ist, wie Sie sie messen und schneiden. Für jedes Signal gilt: erst global, dann pro Failure Domain, dann pro Pfad/Route und erst danach im Detail pro Komponente.

Latenz: p50/p95/p99 (nie nur Durchschnitt), getrennt nach extern (Edge) und intern (East-West).
Traffic: RPS/QPS, zusätzlich Verbindungsraten (new connections) und Datenvolumen (Bytes/s) dort, wo Bandbreite relevant ist.
Fehler: 5xx/4xx (bewusst definiert), plus Timeouts, Resets, DNS-Fehler, TLS-Fehler.
Sättigung: CPU/Memory der App, aber zusätzlich Netzwerkressourcen: conntrack, NAT, SoftIRQ, Interface Queues.

Golden Signal „Latenz“: Netzwerkaware Interpretation und Pflicht-Splits

Für network-aware SREs ist Latenz kein einzelner Wert, sondern eine Kette aus Teilzeiten. Ein praktisches Ziel ist, Latenz in Phasen aufzuteilen, damit Sie Ursachen schneller klassifizieren können: DNS, Connect, TLS, App. Wenn Ihr Observability-Stack diese Phasen nicht nativ bietet, können Sie sie indirekt durch getrennte Checks (Hostname vs. IP, TLS on/off, Mesh-Baseline) und Proxy-Metriken annähern.

Phase-basierte Latenz als Diagnosehilfe

T = T_dns + T_connect + T_tls + T_app

Wenn p99-Latenz steigt, ist die erste Frage: Welche Phase treibt sie? Ein DNS-getriebenes Problem führt typischerweise zu breiter Streuung (mehr Timeouts/Spikes), während App-getriebene Latenz häufig mit Sättigungssignalen korreliert (CPU, Queue, DB).

Pflicht-Splits für Latenz

Region/Zone/Cluster: Latenz pro Failure Domain, um „lokale“ Probleme zu erkennen.
Route/Operation: p95/p99 pro kritischer Route (z. B. /login, /checkout) statt nur globaler Endpoint-Mix.
Upstream/Downstream: Latenz pro Service-Kante (A → B), falls Service Mesh oder Sidecars vorhanden sind.

Für Tracing-Header und eine robuste Korrelation über Proxies hinweg ist W3C Trace Context eine etablierte Referenz: W3C Trace Context.

Golden Signal „Traffic“: Mehr als RPS – Verbindungen und Bytes zählen

Im Netzwerk ist „Traffic“ nicht nur „wie viele Requests“. Viele Incidents entstehen durch Verbindungsmanagement, nicht durch reine Requestmenge: Connection Pools, Keep-Alive, NAT, LB-Idle-Timeouts, Retry-Stürme. Deshalb sollten network-aware SREs Traffic in mindestens drei Dimensionen betrachten:

Requests pro Sekunde: RPS/QPS als Basis.
New Connections pro Sekunde: Indikator für Connection Churn, NAT/conntrack Druck und Keep-Alive-Probleme.
Datenvolumen: Bytes/s und ggf. Paket-/Segmentraten, um Bandbreitenengpässe zu erkennen.

Durchsatz als schnelle Plausibilitätsprüfung

Throughput = Bytes Seconds

Ein klassischer Fehler ist, niedrige RPS als „wenig Last“ zu interpretieren, obwohl große Payloads oder Streaming-Traffic die Links sättigen. Umgekehrt kann hohe RPS bei kleinen Payloads harmlos sein, solange Verbindungsraten stabil bleiben.

Golden Signal „Fehler“: Fehlerklassen netzwerkfähig definieren

Viele Teams definieren Fehler zu eng („nur 5xx“) oder zu breit („alles außer 2xx“). Network-aware SREs profitieren von einer Fehler-Taxonomie, die Netzwerk- und Transportprobleme explizit sichtbar macht. Ziel ist nicht, jedes Detail zu messen, sondern die On-Call-Entscheidung zu beschleunigen: „Blockade“, „Handshake“, „Timeout“, „Reset“, „App-Fehler“.

Pflicht-Fehlerklassen für network-aware SREs

HTTP/gRPC Fehler: 5xx, gRPC non-OK (serverseitig).
Timeouts: client-side timeouts, upstream timeouts (Proxy/Mesh), DNS timeouts.
Resets: TCP RST, HTTP/2 stream resets, connection termination durch LB/Proxy.
TLS/mTLS Failures: handshake failure, certificate expired/not yet valid, SNI mismatch.
Policy/Blockade: NetworkPolicy deny, Firewall reject/drop (wo sichtbar).

Für die korrekte Interpretation von HTTP-Statuscodes und Semantik ist die Spezifikation eine verlässliche Quelle: HTTP Semantics (RFC 9110). Für TLS-Handshake-Grundlagen eignet sich der Standard zu TLS 1.3: TLS 1.3 (RFC 8446).

Golden Signal „Sättigung“: Netzwerkressourcen als First-Class Citizens

Sättigung wird oft auf CPU/Memory reduziert. In modernen Plattformen kann aber das Netzwerk der limitierende Faktor sein: conntrack tables laufen voll, NAT-Gateways erreichen Limits, SoftIRQ saturiert CPU-Kerne, Interface-Queues droppen Pakete, oder eBPF/iptables Regeln werden teuer. Ein incident-taugliches Setup zeigt deshalb Sättigung auf zwei Ebenen: Workload (App) und Netzwerkpfad (Node/Edge).

Pflichtmetriken für Netzwerk-Sättigung (Node/Kernel)

SoftIRQ/CPU-Zeit: Hohe SoftIRQ-Anteile deuten auf Paketverarbeitung als Bottleneck hin.
Interface Drops/Errors: RX/TX drops, errors, overruns (auch per Queue, wenn verfügbar).
Conntrack Usage: Belegung und Drops (wenn exportiert), besonders relevant bei NAT und vielen Kurzverbindungen.
TCP Retransmits: Indikator für Paketverlust oder Überlast auf dem Pfad.

Pflichtmetriken für Proxy/Mesh-Sättigung

Active connections / pending requests: Zeigt, ob Proxies „voll laufen“.
Circuit breaker counters: Overflow/Rejected, um Schutzmechanismen zu erkennen.
Upstream health / no healthy upstream: Trennung zwischen „Netzwerk kann nicht“ und „Upstream ist down“.

Wenn Envoy-basierte Proxies beteiligt sind, ist die Statistikübersicht ein guter Einstieg für sinnvolle Kategorien: Envoy Stats Overview.

Die „fünfte Perspektive“: Failure Domains als Pflichtdimension für alle Golden Signals

Network-aware SREs denken in Failure Domains. Das ist kein Extra, sondern eine Pflichtdimension für jedes Golden Signal. Ohne diese Splits wirken viele Probleme zufällig oder „flaky“, obwohl sie klar lokalisiert sind.

Region: z. B. eu-west-1 vs eu-central-1.
Zone: eine AZ degradierte Netzwerkinfrastruktur ist ein Klassiker.
Cluster: bei Multi-Cluster-Setups oft die wichtigste Trennung.
Node Pool / Instance Type: Treiber-/Kernel-/NIC-Unterschiede zeigen sich hier.
Version: Canary vs stable, um Change-induzierte Fehler zu erkennen.

Ein bewährtes Muster ist, jedes Panel standardmäßig nach Failure Domain splitten zu können. So wird aus „p99 hoch“ direkt „p99 hoch nur in Zone B“ – und damit eine konkrete Richtung.

Golden Signals pro Layer: Ein kompaktes Mapping für schnelle RCA

Um Golden Signals netzwerkfähig zu machen, hilft ein Layer-Mapping. Sie behalten die vier Signale, definieren aber pro Layer typische Metriken und typische Interpretationen.

Layer 3/4 (Underlay/Transport)

Latenz: connect latency, RTT-Indikatoren (wo verfügbar), DNS-Latenz als vorgelagerte Abhängigkeit.
Traffic: bytes/s, packets/s, new connections/s.
Fehler: drops, rejects, retransmits, resets.
Sättigung: interface queue drops, softirq, conntrack usage.

Layer 7 (App/HTTP/gRPC)

Latenz: p95/p99 per Route, per Service-Kante.
Traffic: RPS/QPS per Route und per Tenant (falls relevant).
Fehler: 5xx, gRPC status, timeouts, rate limit responses.
Sättigung: thread pools, connection pools, queue depth, DB connections.

DNS als „Bridge“-Layer

Latenz: resolve latency.
Fehler: SERVFAIL, NXDOMAIN (bewusst interpretiert), timeouts.
Traffic: query rate, cache hit/miss (falls instrumentiert).

Für Kubernetes-DNS und typische Fehlerbilder ist die CoreDNS-Dokumentation eine hilfreiche Referenz: CoreDNS Manual.

Konkrete Dashboard-Bausteine: So sehen Golden Signals im Incident wirklich nutzbar aus

Ein häufiger Fehler ist, Golden Signals als vier große Charts darzustellen und zu glauben, damit sei alles abgedeckt. Für incident-taugliche Netzwerkdiagnosen brauchen Sie zusätzlich strukturierte Drilldowns:

Top N erroring routes: Welche Endpoints treiben die Fehler?
Top N slow operations: Welche Spans/Routes treiben p99?
Split by zone/cluster: Für alle vier Signale mit einem Klick.
Proxy error flags: timeouts vs resets vs no healthy upstream (wenn Mesh/Gateway vorhanden).
Node hot spots: Drops/SoftIRQ/conntrack nach Node, um „bad nodes“ schnell zu finden.

Wenn Sie OpenTelemetry nutzen, können Sie Metriken, Logs und Traces konsistent modellieren und verknüpfen. Als Einstieg eignet sich die Dokumentation: OpenTelemetry Dokumentation.

Typische Fehlinterpretationen und wie network-aware SREs sie vermeiden

„Accept“ bedeutet Erfolg: Ein erlaubter Flow heißt nicht, dass TLS/HTTP erfolgreich war. Deshalb Fehlerklassen trennen (Handshake/Timeout/Reset).
„CPU niedrig“ bedeutet nicht „gesund“: SoftIRQ kann saturieren, obwohl App-CPU niedrig ist. Deshalb Kernel-/Netzwerk-Sättigung sichtbar machen.
„Nur eine Route langsam“ bedeutet App-Bug: Kann MTU, Payload-Größe, Proxy-Buffering oder Retries sein. Deshalb Traffic (Bytes) und Fehlerklassen ergänzen.
„Fehler global“ ohne Failure Domains: Ohne Splits übersehen Sie, dass es nur eine Zone betrifft.

Praktischer Minimalstandard: Golden Signals, die Sie sofort umsetzen können

Wenn Sie schnell starten müssen, implementieren Sie einen „Minimalstandard“, der bereits netzwerkfähig ist, ohne zu komplex zu werden:

Latenz: p95/p99 global + Split nach Zone/Cluster + per kritischer Route.
Traffic: RPS + new connections/s (Edge oder Sidecar/Gateway) + bytes/s auf kritischen Pfaden.
Fehler: 5xx + timeouts + resets + DNS timeouts (mindestens als separate Serie).
Sättigung: CPU/memory + node drops/errors + (wenn möglich) conntrack usage oder retransmits.

Dieser Minimalstandard liefert im Incident häufig schon die entscheidende Richtung: „App überlastet“, „Netzwerkpfad degradiert“, „DNS kaputt“, „Proxy/Sidecar ist der Flaschenhals“.

Outbound-Quellen für vertiefende Informationen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.