OSI-Observability für SRE: Checkliste Pflichtmetriken pro Layer

Red Snapper

1 month ago

OSI-Observability für SRE ist mehr als „ein paar Dashboards“: Sie ist ein systematischer Ansatz, um Störungen schnell einzugrenzen, Ursachen zu beweisen und Risiken dauerhaft zu reduzieren. Gerade in verteilten Systemen mit Microservices, Kubernetes, Service Mesh, CDN, Load Balancern und mehreren Cloud-Accounts ist die klassische Fehlersuche oft chaotisch, weil Teams Signale auf unterschiedlichen Ebenen betrachten und dabei aneinander vorbeireden. Die Folge: unnötige Eskalationen, lange MTTR und wiederkehrende Incidents. Eine OSI-basierte Sicht schafft Ordnung. Sie zwingt dazu, pro Layer definierte Pflichtmetriken zu instrumentieren und im Incident in einer festen Reihenfolge zu prüfen – vom physischen Signal bis zur Applikationslogik. Diese Checkliste hilft Ihnen, pro OSI-Layer die wichtigsten Metriken (und sinnvolle Ergänzungen) zu standardisieren, inklusive praktischer Hinweise zur Messung, typischer Fehlersymptome und der häufigsten Interpretationsfehler. So entsteht eine Observability-Grundausstattung, die sowohl für Einsteiger verständlich als auch für produktionsreife SRE-Teams belastbar ist.

Warum OSI-Observability im SRE-Alltag funktioniert

Das OSI-Modell ist kein „Netzwerk-Nerd-Thema“, sondern ein Kommunikations- und Diagnosewerkzeug. SRE-Teams profitieren besonders, weil:

Incident-Triage schneller wird: Sie reduzieren die Suchfläche durch ein festes Raster pro Layer.
Beweisführung möglich wird: Sie können Hypothesen mit Metriken verifizieren (statt Bauchgefühl).
Ownership klarer wird: Layer-Signale zeigen, ob das Problem eher Netzwerk, Plattform oder Anwendung betrifft.
Dashboards standardisiert werden: Gleiche Pflichtmetriken über Teams hinweg reduzieren „Dashboard Wildwuchs“.

Ein nützlicher mentaler Anker ist das Zusammenspiel aus SRE-Methoden wie „Golden Signals“ (Latency, Traffic, Errors, Saturation) und OSI-Layern. Als Hintergrund lohnt ein Blick in das Google-SRE-Buch (Kapitel zu Monitoring und SLOs): Monitoring Distributed Systems (Google SRE Book).

Grundprinzipien: Pflichtmetriken, nicht „alles messen“

„Plichtmetriken“ heißt: ein kleiner, verbindlicher Kern, der in jeder produktiven Umgebung vorhanden sein muss. Ergänzende Metriken sind optional, aber hilfreich. Gute Regeln:

Erst Pflicht, dann Tiefe: Ohne Basismetriken sind Detaildaten (z. B. Debug-Logs, PCAP) oft wertlos.
Symptome und Ursachen trennen: Viele Metriken zeigen nur Symptome (z. B. 5xx). Layer-Metriken helfen beim Ursachenbeweis.
Kardinalität kontrollieren: Keine User-IDs, Order-IDs oder volle URLs als Labels/Tags.
Korrelationsfähigkeit: Trace-IDs/Request-IDs und konsistente Zeitstempel sind Pflicht, damit Layer-Signale zusammenpassen.

OSI-Layer 1: Physical – Signal, Hardware, Host-Path

Layer 1 wirkt in Cloud-Umgebungen „abstrakt“, aber die Symptome sind real: Packet Drops durch NIC/Driver-Probleme, fehlerhafte Links, Node-Überlast oder instabile Hosts. Für SRE ist Layer 1 vor allem dann relevant, wenn Störungen cluster- oder zonenweise auftreten.

Interface Errors: CRC-Errors, RX/TX errors, drops auf Host-Interfaces (pro Node/VM).
Link State Changes: Flapping/Carrier up/down Ereignisse.
NIC Queue Drops: Drops in Treiber-/Queue-Statistiken (z. B. ring buffer overrun).
Host Saturation: CPU-Steal, CPU-IRQ-Last, SoftIRQ-Anteile, Load Average (als Kontext für Netzwerkdrops).

Optional, aber sehr nützlich:

Node-Zeitdrift: NTP/Chrony offset (wichtig für TLS, Logs und Traces).
Kernel-Netstack Pressure: Socket backlog, RCVBUF/SNDBUF-Pressure, Dropped packets im Kernel.

OSI-Layer 2: Data Link – Ethernet, ARP/ND, Switching-Domänen

Layer 2 wird in Cloud-Netzen oft „gemanagt“, aber in Kubernetes/On-Prem/Hybrid-Szenarien ist er häufig die Ursache für „komische“ Connectivity-Probleme. Typische Symptome: sporadische Erreichbarkeit, ARP-Probleme, MAC-Flapping in komplexen Topologien.

ARP/Neighbor Cache Health: Anzahl incomplete/failed ARP (IPv4) oder ND (IPv6), Neighbor table overflow.
L2 Drops/Discards: Drops auf Bridge/vSwitch-Ebene (z. B. Linux bridge, OVS).
Broadcast/Multicast Rate: Ungewöhnlicher Anstieg (kann auf Storms oder Fehlkonfigurationen hindeuten).

Optional:

MAC/ARP Churn: Häufig wechselnde Zuordnungen, die auf Instabilität oder Fehlrouting hindeuten können.
Container/Pod veth Drops: Drops an veth-Pairs (Kubernetes-spezifisch).

OSI-Layer 3: Network – IP, Routing, ICMP, Path-Health

Layer 3 ist der Kern vieler Produktionsprobleme: Routing, MTU, Blackholes, fehlerhafte Route Tables, asymmetrische Pfade. SRE braucht hier Metriken, die „Erreichbarkeit“ und „Pfadqualität“ quantifizieren – nicht nur Ping.

ICMP Unreachable/Fragmentation Needed: Rate von „Destination Unreachable“, „Fragmentation Needed“ (MTU-Hinweis).
Packet Loss (L3): Verlust auf Pfaden (synthetisch gemessen) und Drops in Network Devices/Edges.
Route Changes: Häufigkeit von Routen-Updates (BGP/OSPF/Cloud-Route-Events, falls sichtbar).
MTU/PMTUD Indikatoren: PMTUD-Failures, auffällige Retransmits bei großen Payloads (Querverweis Layer 4).

Optional:

Subnet/IP Exhaustion: Freie IPs in Subnetzen, IPAM-Fehler (Kubernetes CNI, Cloud Subnets).
NAT-Kapazität: Wenn NAT-Gateways genutzt werden: SNAT-Port-Auslastung, Verbindungsfehler (Querverweis Layer 4).

OSI-Layer 4: Transport – TCP/UDP, Retransmits, Handshakes, Conntrack

Layer 4 ist in der Praxis der „Timeout-Layer“: Viele Probleme zeigen sich als Retransmits, Reset-Stürme, überfüllte Conntrack-Tabellen oder unpassende Timeouts. Wer hier nur auf Applikationsfehler schaut, verliert wertvolle Zeit.

TCP Retransmits: Rate von Retransmissions (global und pro Ziel/Service, soweit möglich).
TCP Handshake Health: SYN/SYN-ACK Erfolgsrate, Verbindungsaufbauzeit (connect latency).
TCP Resets: RST-Rate (ausgehend/eingehend), Hinweise auf aktive Drops, Timeouts, Policy-Blocks oder Overload.
Conntrack Utilization: Auslastung und Drops/evictions (besonders in Kubernetes-Nodes und NAT-Szenarien).
UDP Drops: Für DNS/VoIP/Streaming: UDP receive errors/drops und Paketverlustindikatoren.

Optional:

Socket Errors: ECONNRESET, ETIMEDOUT, EHOSTUNREACH aggregiert (App oder Sidecar).
Queueing/Buffer Pressure: TCP backlog, listen queue overflows.

OSI-Layer 5: Session – Verbindungen, Pools, Keepalives, Wiederverwendung

Layer 5 wird oft übersehen, ist aber in modernen Stacks extrem relevant: Connection Pooling, HTTP Keepalive, gRPC Channels, LB Idle Timeouts, Session-Reuse im Mesh. Fehler wirken häufig „zufällig“: einzelne Requests scheitern, andere nicht.

Connection Pool Stats: Pool-Auslastung, queued requests, connection reuse rate (z. B. im Client/Sidecar).
Keepalive/Idle Timeout Events: Anzahl idle-geschlossener Verbindungen (Gateway/LB/Proxy).
Session Establishment Failures: Wiederholte Reconnects, Channel-Rebuilds (gRPC).

Optional:

LB/Proxy Drains: Connection draining events (Deployments/Scaling).
HTTP/2 Stream Resets: RST_STREAM, GOAWAY-Raten als Session-/Transport-Übergangssignal.

OSI-Layer 6: Presentation – TLS, Zertifikate, Encoding, Protokoll-Features

Layer 6 ist in der Praxis vor allem TLS/mTLS: Handshake, Zertifikatsketten, Cipher-Suites, SNI, ALPN (HTTP/2), sowie Encoding/Kompression. In Service-Mesh-Umgebungen kann ein kleiner Zertifikatsfehler ganze Service-Landschaften lahmlegen.

TLS Handshake Success Rate: Anteil erfolgreicher Handshakes (nach Ziel, Namespace, Gateway).
TLS Handshake Latency: Zeit bis Handshake abgeschlossen (wichtig bei hohen RPS und kurzen Timeouts).
Certificate Validity/Expiry: Days-to-expiry, NotBefore/NotAfter Fehler, Chain errors.
mTLS Policy Denials: Abgelehnte Verbindungen aufgrund von Identität/Policy (z. B. im Mesh).
ALPN/Protocol Negotiation: Verteilung HTTP/1.1 vs. HTTP/2, Fehlverhandlungen.

Optional:

Cipher/Version Distribution: TLS-Versionen und Cipher-Suites (Sicherheits- und Kompatibilitätsindikator).
Compression/Encoding Errors: Gzip/Brotli Fehler, Content-Encoding Mismatches (selten, aber tückisch).

Für TLS-Grundlagen und Fehlerszenarien ist die Dokumentation der IETF-Standards eine gute Referenz, z. B. TLS 1.3: RFC 8446 (TLS 1.3).

OSI-Layer 7: Application – HTTP/gRPC, Business-SLOs, Fehlerklassen, Abhängigkeiten

Layer 7 ist die Sicht, die Ihre Nutzer spüren: Request-Erfolg, Latenz, korrekte Antworten, Kapazität. Gleichzeitig ist Layer 7 ohne Layer-1–6-Signale unvollständig, weil viele „App-Fehler“ in Wahrheit Netzwerk-, TLS- oder Timeout-Probleme sind.

Traffic: Requests pro Sekunde (RPS), nach Endpoint/Route und Response-Code-Klasse.
Errors: 5xx/4xx getrennt, inklusive „Retryable“ vs. „Non-retryable“ Fehler.
Latency: P50/P95/P99 (oder P90/P99) pro Route; getrennt nach Server- vs. Client-Sicht, wenn möglich.
Saturation: Thread/Worker-Auslastung, Queue-Längen, Rate-Limits, Backpressure-Signale.
Dependency Health: Erfolgsrate und Latenz pro Upstream-Abhängigkeit (DB, Cache, externe APIs).

Optional:

Payload Size: Request/Response Größen (hilft bei MTU/Timeout/Compression-Themen).
Retry Metrics: Retry-Rate, retry budget consumption, Retry-Storm-Indikatoren.
Tracing Coverage: Anteil Requests mit Trace (und Export-Health des Collectors).

Querschnitt: Wie Sie OSI-Metriken mit SLOs verbinden

Damit OSI-Observability nicht nur „Technik-Monitoring“ bleibt, sollte sie SLO-fähig sein. Typisch ist eine Fehlerbudget-Logik, die mit Layer-7-Signalen startet, aber mit Layer-4–6-Signalen Ursachen beweist. Ein einfaches, häufig genutztes SLI-Beispiel ist die Fehlerquote:

ErrorRate = 5xx TotalRequests

Wichtig in der Praxis: Wenn die ErrorRate steigt, prüfen Sie sofort die Layer-4–6-Pflichtmetriken (Retransmits, Handshake-Failures, Policy-Denials, Idle Timeouts). Das verhindert, dass Teams „im Code“ debuggen, obwohl das Problem z. B. eine Zertifikatsrotation oder ein NAT-Bottleneck ist.

Checkliste: Pflichtmetriken pro Layer (kompakt, auditierbar)

Die folgende Liste ist bewusst als „Pflicht“ formuliert. Wenn Sie sie als Plattform-Standard einführen, können Sie Observability-Readiness wie ein Launch-Kriterium behandeln.

Layer 1 – Pflicht

RX/TX errors und drops pro Node/VM-Interface
Link-State-Änderungen (Flaps)
CPU/IRQ/SoftIRQ als Kontextsignal bei Netzwerkproblemen

Layer 2 – Pflicht

ARP/Neighbor-Fehler (incomplete/failed) und Table-Auslastung
L2 Drops/Discards auf Bridge/vSwitch (wenn relevant)
Broadcast/Multicast-Rate als Anomalieindikator

Layer 3 – Pflicht

Packet Loss (synthetisch oder Edge/Device-nah)
ICMP Unreachable/Fragmentation Needed (MTU-Hinweise)
Route-/Path-Change Events (soweit verfügbar)

Layer 4 – Pflicht

TCP Retransmits
Handshake/Connect Erfolgsrate und Connect-Latenz
TCP Resets (RST-Rate)
Conntrack-Auslastung und Drops/Evictions (bei Kubernetes/NAT besonders wichtig)

Layer 5 – Pflicht

Connection Pool: aktive Verbindungen, queued requests, reuse rate
Keepalive/Idle Timeout Events (Gateway/LB/Proxy)
Reconnect/Channel-Rebuild Rate (gRPC/Long-lived connections)

Layer 6 – Pflicht

TLS/mTLS Handshake Success Rate
TLS Handshake Latency
Zertifikatsablauf (days-to-expiry) und Validierungsfehler
mTLS/Policy Denials (Identity- oder Policy-bedingte Drops)

Layer 7 – Pflicht

RPS/Traffic pro Route/Service
Errors: 4xx vs. 5xx (und idealerweise Fehlerklassen)
Latency: P95/P99 pro Route (mindestens serviceweit)
Saturation/Backpressure (Queues, Worker-Auslastung)
Dependency Health: Erfolgsrate/Latenz pro Upstream

Praktische Hinweise zur Implementierung: Messpunkte und Stolperfallen

OSI-Observability scheitert selten an „fehlenden Tools“, sondern an falschen Messpunkten. Drei praxiserprobte Empfehlungen:

Messung so nah wie möglich am Problem: Retransmits auf Node-Ebene sind oft aussagekräftiger als nur App-Fehlercodes.
Ingress- und Egress-Sicht trennen: Ein Service kann intern gesund wirken, aber am Gateway scheitern (Idle Timeout, TLS, Policy).
Client- und Server-Latenz unterscheiden: Client-Latenz enthält Netzwerk + Queueing + Retries; Server-Latenz zeigt reine Verarbeitung.

Für verteiltes Tracing und standardisierte Metrik-/Trace-Semantik ist OpenTelemetry eine etablierte Grundlage: OpenTelemetry Dokumentation. Wichtig ist dabei weniger das konkrete Tool, sondern die konsequente Standardisierung der Attribute und die Korrelation über IDs.

Incident-Nutzung: OSI-Triage in der richtigen Reihenfolge

Damit die Checkliste im Incident wirklich funktioniert, nutzen Sie sie als Ablauf:

Start bei Layer 7: Was sieht der Nutzer? Welche Routen/Services sind betroffen? (Traffic/Errors/Latency)
Dann Layer 6: Gibt es TLS/mTLS-Handshakes, Policy Denials, Zertifikatsprobleme?
Dann Layer 4: Retransmits, Resets, Conntrack, Connect-Latenzen – sind Timeouts „transportgetrieben“?
Dann Layer 3: Packet Loss, MTU-Indikatoren, Route-Änderungen – gibt es Pfadprobleme?
Dann Layer 1–2: Cluster-/Zonenmuster, Drops/Errors, ARP/ND-Anomalien – ist die Infrastruktur instabil?

Dieser Ablauf minimiert die Zeit bis zur ersten belastbaren Hypothese und verhindert, dass Teams vorschnell eskalieren oder „random fixes“ ausrollen.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.