OSI-Modell für SRE: Kompletter Leitfaden zum Mapping „Netzwerkproblem vs. Applikation“

Red Snapper

1 month ago

Das OSI-Modell wirkt auf den ersten Blick wie Theorie aus dem Netzwerkunterricht. Für SRE-Teams ist es jedoch ein sehr praktisches Denkwerkzeug, um in Incidents schnell zu entscheiden: Liegt ein Netzwerkproblem vor oder ist es eine Applikationsstörung? Genau diese Trennung ist in der Realität oft schwer, weil moderne Systeme mehrere Schichten gleichzeitig nutzen: CDN, Load Balancer, Service Mesh, DNS, TLS, HTTP/2, gRPC und dazu Anwendungscode, Datenbanken und Abhängigkeiten. Der Leitfaden „OSI-Modell für SRE“ zeigt, wie Sie Symptome und Telemetrie entlang der Schichten abbilden, typische Fehlerbilder erkennen und in Minuten zu einer belastbaren Hypothese kommen. Das Ergebnis ist ein wiederholbarer Ansatz für On-Call und Troubleshooting: Sie prüfen zuerst die unteren Schichten (Konnektion, Routing, Namensauflösung), dann Transport (TCP/QUIC), dann Session und TLS, und erst danach Protokoll- und App-Logik. So reduzieren Sie Trial-and-Error, vermeiden „Ping-Pong“ zwischen Teams und können Runbooks präziser schreiben. Der Leitfaden ist bewusst praxisnah: Er verbindet OSI-Schichten mit Cloud-Realität und gibt konkrete Messpunkte, Logfelder, Checks und Entscheidungsregeln an die Hand.

Warum das OSI-Modell für SRE hilfreich ist

In einer Störung ist die wichtigste Frage nicht „Was ist kaputt?“, sondern „Wo muss ich suchen?“. Das OSI-Modell hilft, Ursachenräume zu begrenzen. Es verhindert zwei typische Fehlentscheidungen: Erstens, dass Applikationsteams Netzwerkprobleme debuggen (und umgekehrt). Zweitens, dass Symptome auf Layer 7 (z. B. 502/504) vorschnell als „App kaputt“ bewertet werden, obwohl DNS, Routing, TLS oder Load Balancing die eigentliche Ursache sind.

Struktur: Sie arbeiten Schicht für Schicht und reduzieren Komplexität.
Kommunikation: Sie können Hypothesen klar formulieren („Layer-4-Symptom: viele TCP Retransmits“ statt „es ist langsam“).
Messbarkeit: Sie definieren pro Schicht Pflichtmetriken, sodass Incidents weniger „blind“ sind.
Runbooks: Sie schreiben Checks in der Reihenfolge, die am schnellsten falsche Annahmen ausschließt.

Für einen formalen Überblick zum OSI-Modell eignet sich als Einstieg der Artikel „OSI model“ (Begrifflichkeiten, Schichten, Zuordnung von Protokollen). Für HTTP-Semantik und Statuscodes ist „HTTP Semantics (RFC 9110)“ eine verlässliche Referenz.

OSI vs. TCP/IP: Das praktische Mapping für Cloud-Stacks

In der Praxis nutzen SRE-Teams meist ein hybrides Modell: OSI als Denkrahmen, TCP/IP als Implementationsrealität. Viele Komponenten bündeln Schichten: Ein Ingress-Controller ist gleichzeitig Layer 4 und Layer 7; ein Service Mesh berührt Transport, Security und Application; ein CDN kann TLS terminieren und HTTP-Fehler erzeugen, ohne dass Ihre App überhaupt erreicht wird.

OSI Layer 1–2: Physik/Link (in Cloud meist abstrahiert, aber nicht irrelevant: NIC, MTU, VLAN, Encapsulation)
OSI Layer 3: IP/Routing (VPC/VNet, Subnets, Routes, NAT, Peering)
OSI Layer 4: Transport (TCP/UDP/QUIC, Ports, Retransmits, Handshakes)
OSI Layer 5–6: Session/Presentation (TLS, ALPN, HTTP/2-Frames, gRPC-Transportaspekte)
OSI Layer 7: Anwendung (HTTP/gRPC APIs, Auth, Business-Logik, Datenzugriff)

Das zentrale SRE-Ziel: Schnell entscheiden „Netzwerkproblem vs. Applikation“

Ein brauchbares Mapping basiert auf zwei Leitfragen:

Kommt die Anfrage überhaupt bei der Anwendung an? Wenn nein, ist das Problem sehr wahrscheinlich in den Schichten 3–6 oder in vorgeschalteten Komponenten (DNS, Load Balancer, TLS, WAF, Gateway).
Wenn sie ankommt: Scheitert sie systematisch an Logik oder Kapazität? Dann ist Layer 7 (oder ein Downstream-Service) wahrscheinlicher.

Operational übersetzt bedeutet das: Sie benötigen durchgängige Korrelations-IDs (Request-ID/Trace-ID) und eine klare Sicht auf „Edge → Gateway → App → Downstream“. Ohne diese Kette ist OSI-Diagnose zwar möglich, aber deutlich langsamer.

Layer 1–2: Physik und Link – selten, aber nicht unmöglich

In Public-Cloud-Umgebungen sind Layer-1/2-Probleme seltener sichtbar, aber sie existieren indirekt: instabile Hosts, fehlerhafte NIC-Treiber, fehlerhafte Offloading-Features, MTU-Mismatches durch Tunneling oder Probleme bei bestimmten Instance-Typen. Typisch ist, dass das Problem „knotenspezifisch“ ist: nur einige Pods/VMs sind betroffen.

Symptome: sporadische Paketverluste, Verbindungsabbrüche, nur einzelne Nodes/Pods betroffen, flapping.
Signale: Interface errors, dropped packets, Kernel-Logs, erhöhte Retransmits auf einzelnen Hosts.
Checks: Node-Drain/Reschedule, Vergleich betroffener vs. gesunder Nodes, MTU prüfen.

Layer 3: Netzwerk und Routing – „Warum erreicht niemand den Service?“

Layer-3-Probleme äußern sich häufig als „komplette Unerreichbarkeit“ oder als regionale/segmentierte Ausfälle: bestimmte Subnets, bestimmte Regionen oder bestimmte Client-Netze sind betroffen. In Cloud-Kontexten sind Route Tables, Security Groups/Network ACLs, NAT Gateways, Peering/Transit und egress policies die üblichen Fehlerquellen.

Symptome: Timeouts statt Fehlcodes, plötzlicher Anstieg von Connect-Fehlern, nur bestimmte Quellen/Regionen betroffen.
Typische Ursachen: falsche Route, kaputtes NAT, fehlendes Peering, restriktive ACL, egress blockiert, DNS zeigt auf falsches Ziel (Überlappung mit Layer 7/Name Resolution).
Checks: Traceroute aus relevanten Netzsegmenten, VPC/VNet Flow Logs, Security-Policy-Diff zum letzten Change.

Für eine praxisnahe Einordnung von DNS und Namensauflösung als kritische Schicht lohnt ein Blick auf „RFC 1034“ und „RFC 1035“ (Grundlagen DNS). Auch wenn DNS streng genommen nicht nur Layer 3 ist, wird es im Incident oft als „Netzwerkseite“ behandelt, weil es vor dem Verbindungsaufbau entscheidet.

Layer 4: Transport – TCP/UDP/QUIC als Fehlerquelle erkennen

Layer-4-Probleme sind bei SRE-Diagnosen besonders häufig, weil sie sowohl wie „Netzwerk down“ als auch wie „App langsam“ wirken können. Entscheidend ist, Transport-Symptome klar zu messen: Handshake-Fehler, Retransmits, Reset-Stürme, Port-Exhaustion oder Connection Tracking Limits.

Symptome: hohe Timeout-Raten, sporadische 502/504 (vom Proxy), steigende Latenzen ohne CPU-Spikes in der App.
Signale: SYN-SYN/ACK-Retries, TCP Retransmits, erhöhte RSTs, viele „connection refused“ oder „no route“.
Typische Ursachen: zu niedrige Conntrack-Limits, Ephemeral Port Exhaustion, unzureichendes Keep-Alive, Load-Balancer-Idle-Timeout, unpassende HTTP/2- oder gRPC-Settings.

Wenn Sie HTTP/3/QUIC einsetzen, kann ein Teil dieser Symptome in UDP/QUIC-spezifische Metriken wandern. Für den Transporthintergrund ist „RFC 9293 (TCP)“ eine gute Referenz.

Layer 5–6: Session und TLS – wenn „Handshake“ das eigentliche Problem ist

In der Praxis werden Layer 5 und 6 häufig durch TLS und Protokollnegotiation repräsentiert: Zertifikate, Cipher Suites, ALPN, mTLS, SNI, HTTP/2-Handshake und Interoperabilität. Viele Störungen nach Zertifikatswechseln oder Proxy-Updates sind keine Layer-7-Bugs, sondern „Session/Presentation“-Probleme.

Symptome: „SSL handshake failed“, 525/526 (je nach Edge), plötzliche Client-spezifische Ausfälle (nur bestimmte SDKs/Browser), erhöhte Verbindungsabbrüche.
Typische Ursachen: abgelaufenes Zertifikat, falsche Chain, falsches SNI-Routing, mTLS-Policy zu strikt, ALPN/HTTP2-Inkompatibilität.
Checks: Zertifikatkette prüfen, SNI-Targeting validieren, TLS-Handshake-Metriken am Edge und am Origin vergleichen.

Für TLS-Grundlagen und Handshake-Details ist „RFC 8446 (TLS 1.3)“ ein sinnvoller Referenzpunkt.

Layer 7: Applikation – wenn Requests ankommen, aber nicht korrekt verarbeitet werden

Layer-7-Probleme lassen sich meist daran erkennen, dass die Anwendung oder ein vorgelagerter L7-Proxy konsistente Antworten liefert: Fehlercodes, Exceptions, Validierungsfehler, Auth-Probleme oder Kapazitätsprobleme im Backend. Hier sind Statuscodes, Business-Metriken und anwendungsnahe Logs entscheidend.

Symptome: 5xx steigt, 4xx-Spikes auf bestimmten Routen, P99-Latenz steigt parallel zur CPU/DB-Latenz, erhöhte Queue-Zeiten.
Typische Ursachen: Regression nach Deploy, fehlerhafte Feature Flags, Downstream-Ausfall, DB-Deadlocks, Cache-Miss-Sturm, falsches Rate Limiting, Auth/Token-Fehler.
Checks: Fehler nach Route/Version segmentieren, Deploy-Timeline prüfen, Trace-Spans auf Downstream-Latenz untersuchen, Circuit-Breaker/Retry-Policy evaluieren.

Gerade bei HTTP-Statuscodes ist es hilfreich, Semantik sauber zu halten: 401/403/429 unterscheiden sich operativ stark. Als Referenz eignet sich „RFC 9110“ (Bedeutung von Statuscodes und Headern).

Ein schneller Entscheidungsbaum für On-Call: So starten Sie richtig

In den ersten Minuten eines Incidents hilft ein standardisierter Ablauf. Ziel ist nicht, sofort die endgültige Ursache zu finden, sondern schnell die wahrscheinlichste Schicht zu identifizieren.

Ist der Service von mehreren Standorten aus erreichbar? Wenn nein: Layer 3/4 oder DNS wahrscheinlicher.
Sehen Sie Requests im App-Access-Log mit Request-ID? Wenn nein: Edge/Gateway/DNS/TLS prüfen.
Gibt es einen Spike in Timeouts ohne 5xx? Häufig Transport/Routing.
Gibt es 5xx und erhöhte App-Latenz? Häufig Layer 7 oder Downstream.
Nur bestimmte Clients betroffen? Oft TLS/ALPN, Caching, WAF/Bot-Mitigation oder API-Versionierung.

Mapping-Tabelle: Typische Symptome und die wahrscheinlichste OSI-Schicht

Timeouts, keine Response: Layer 3/4 (Routing/Transport) oder DNS
Connection refused: Layer 4 (Port/Listener/Health/Firewall) oder App nicht gebunden
Handshake-Fehler, Zertifikatsfehler: Layer 5/6 (TLS)
502/504 von Proxy: häufig Layer 4/5 (Upstream-Verbindung) oder App/Downstream-Latenz
401/403 Spikes: Layer 7 (Auth/AuthZ) oder Edge/WAF-Policy
429 Spikes: Layer 7/Policy (Rate Limiting) oder Schutzlayer zu aggressiv
5xx Spikes: Layer 7 (Exceptions, Ressourcen) oder Downstream-Ausfälle
Nur einzelne Pods/Nodes betroffen: häufig Layer 1/2-artige Host/Kernel/NIC-Themen oder node-spezifische Resource-Issues

Telemetrie pro Schicht: Welche Metriken und Logs Sie als SRE brauchen

Damit das Mapping zuverlässig funktioniert, sollten Sie pro Schicht Mindesttelemetrie definieren. Diese „Pflichtmesspunkte“ machen Troubleshooting reproduzierbar.

Layer 3: Flow Logs, Paketverluste (soweit sichtbar), NAT/egress metrics, Route/ACL Changes
Layer 4: TCP handshake times, retransmits, resets, connection counts, conntrack utilization
Layer 5/6: TLS handshake success rate, handshake latency, certificate expiry monitoring, ALPN distribution
Layer 7: request rate, error rate (4xx/5xx/429), latency percentiles, saturation (CPU, DB, queue), top routes

Einheitliche SLIs: Damit „Netzwerk vs. Applikation“ messbar wird

Ein häufiger Fehler ist, nur einen „Availability“-Graphen zu haben, ohne zu verstehen, welcher Fehleranteil aus Transportproblemen und welcher aus Applikationsfehlern kommt. Eine einfache und sehr praktische Trennung ist: Verfügbarkeit aus Sicht des Clients (End-to-End) vs. Verfügbarkeit aus Sicht der Anwendung (nur Requests, die die App erreichen).

EndToEndAvailability = 1 – ClientVisibleFailures TotalClientRequests
AppAvailability = 1 – AppFailures RequestsReachingApp

Interpretation: Wenn EndToEndAvailability fällt, AppAvailability aber stabil bleibt, ist ein Netzwerk-/Edge-/TLS-Thema wahrscheinlicher.
Interpretation: Wenn beide fallen, ist Layer 7 oder ein Downstream-Service wahrscheinlicher.

Runbook-Bausteine: Checks, die Sie direkt übernehmen können

Ein gutes Runbook fragt nicht „Was könnte es sein?“, sondern führt zielgerichtet durch Ausschlussdiagnostik. Die folgenden Bausteine sind OSI-orientiert formuliert und lassen sich als Standard-Abschnitte wiederverwenden.

Edge und Name Resolution

DNS-Auflösung aus mehreren Regionen prüfen (A/AAAA/CNAME, TTL, erwartetes Target).
Edge-Status prüfen: wird Traffic geblockt, challenged oder umgeleitet?
Vergleich Edge-Logs vs. App-Access-Logs (kommen Requests an?)

Transport und Routing

Timeouts vs. Errorcodes segmentieren (Timeouts sprechen eher für Layer 3/4).
Retransmits/Resets/Conntrack prüfen; Listener/Ports prüfen.
Load Balancer Health Checks: sind Targets gesund? Gibt es ungleiches Traffic-Shaping?

TLS und Protokollnegotiation

Zertifikatgültigkeit und Chain prüfen; SNI-Targeting validieren.
ALPN/HTTP2-Verteilung prüfen: sind nur bestimmte Clients betroffen?
mTLS-Policies prüfen: gab es Änderungen an Trust Stores oder Client-Zertifikaten?

Applikation und Downstreams

Top Fehler nach Route/Version/Client-Kohorte auswerten.
Deploy/Change-Korrelation prüfen (Release, Feature Flag, Config).
Tracing nutzen: wo steigt Latenz? App selbst, DB, Cache, externe APIs?
Retry-/Timeout-Policies prüfen: verstärken Retries ein Downstream-Problem?

Typische Missverständnisse und wie Sie sie vermeiden

„502 = App kaputt“: Häufig ist 502 ein Proxy-Symptom, das auch aus Layer-4/5-Problemen entsteht.
„Ping geht, also ist Netzwerk ok“: ICMP ist nicht gleich TCP/TLS/HTTP; Applikationspfad kann trotzdem brechen.
„Nur ein Team muss es fixen“: Viele Störungen sind Schnittstellenprobleme (Timeouts, Retries, TLS), die Kooperation erfordern.
„Wir haben Logs, also haben wir Observability“: Ohne Korrelation (Request-ID/Trace-ID) sind Logs schwer nutzbar.

Outbound-Links für vertiefende Orientierung

OSI model für Schichten, Begriffe und Protokollzuordnung
HTTP Semantics (RFC 9110) für Statuscodes, Semantik und Header-Verhalten
TLS 1.3 (RFC 8446) für Handshake- und Sicherheitsgrundlagen
TCP (RFC 9293) für Transportverhalten, Retransmits und Verbindungslogik
DNS Concepts (RFC 1034) und DNS Implementation (RFC 1035) für Namensauflösung als kritische Vorbedingung

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.