„It’s the Network“ vs. „It’s the App“: Entscheidungs-Framework fürs On-Call

Red Snapper

1 month ago

„It’s the Network“ vs. „It’s the App“ ist einer der häufigsten Streitpunkte im On-Call – und gleichzeitig einer der größten Hebel, um MTTR zu senken. Wenn Symptome wie Timeouts, 502/503/504, sporadische Disconnects oder steigende Latenz auftreten, wirkt „das Netzwerk“ als naheliegender Schuldiger. In der Praxis steckt jedoch oft eine Mischung aus Transporteffekten, Konfigurationsdrift, Retries, Ressourcenengpässen oder Applikationsverhalten dahinter. Ein belastbares Entscheidungs-Framework fürs On-Call hilft, diese Debatte in wenige Minuten zu überführen: Sie sammeln gezielt Evidenz, testen Hypothesen in einer festen Reihenfolge und kommunizieren anhand klarer Kriterien, ob das Problem eher in der Netzwerkebene, in der Anwendung oder an der Schnittstelle (Load Balancer, Ingress, Service Mesh, DNS, TLS) liegt. Dieser Artikel liefert ein praxistaugliches, leicht anwendbares Vorgehen, das sowohl für Cloud- als auch Kubernetes- und Hybrid-Umgebungen funktioniert und sich gut in Playbooks, Runbooks und Incident-Kommunikation integrieren lässt.

Warum „Netzwerk vs. App“ im Incident so schwer zu trennen ist

Viele Ausfälle wirken „network-ish“, obwohl die Root Cause in der Anwendung liegt – und umgekehrt. Das liegt an drei typischen Verzerrungen: Erstens sind Netzwerkfehler häufig intermittierend und zeigen sich als Tail-Latency-Spikes, die in Durchschnittswerten verschwinden. Zweitens amplifizieren Anwendungen und Middleware Probleme durch Retries, aggressive Timeouts oder Connection-Pooling. Drittens gibt es Komponenten in der Mitte, die technisch Netzwerk sind, aber operativ eher Plattform: Load Balancer, Ingress-Controller, API-Gateways, Service Mesh Sidecars, NAT, DNS und TLS-Termination. Ein gutes Framework akzeptiert daher, dass „Netzwerk“ und „App“ keine Teamsilos sind, sondern Ebenen einer Kette, die gemeinsam beobachtet werden müssen.

Symptome sind nicht gleich Ursachen: 504 kann Upstream langsam, Down, falsch geroutet oder überlastet bedeuten.
Retries verschleiern Fakten: Ein einzelner Drop kann in zehn Requests und eine Queue-Lawine übersetzt werden.
Middleboxes verändern Signale: TLS-Offload, HTTP/2-Multiplexing, Connection-Reuse und NAT beeinflussen Verhalten stark.

Das Entscheidungs-Framework: Von Impact zu Evidenz in 10–15 Minuten

Das Framework besteht aus vier Schritten, die Sie im On-Call konsequent nacheinander abarbeiten: (1) Impact und Scope abgrenzen, (2) den „Pfad“ definieren (Client → Entry → Service → Dependency), (3) Tests pro Layer durchführen (von außen nach innen) und (4) anhand von Entscheidungskriterien klassifizieren. Wichtig: Sie müssen nicht „alles“ messen, sondern die minimalen, hoch aussagekräftigen Signale.

Schritt 1: Impact, Scope und Zeitfenster sauber definieren

Bevor Sie sich in Debugging verlieren, fixieren Sie die Incident-Frage: Was ist kaputt, für wen und seit wann? Dieser Schritt verhindert, dass Teams parallel an verschiedenen Problemen arbeiten oder „zufällige“ Korrelationen überbewerten.

Scope: Ein Service, mehrere Services, nur eine Region, nur ein Cluster, nur bestimmte Kunden/Clients?
Symptomtyp: Latenz hoch, Error Rate hoch, harte Timeouts, Disconnects, Dateninkonsistenz?
Startpunkt: Exakte Zeit + letzte Änderungen (Deployments, Netzwerkänderungen, Zertifikate, DNS, Policies).
Blast Radius: Welche Abhängigkeiten teilen die betroffenen Workloads (Gateway, DB, Cache, NAT, Mesh)?

Schritt 2: Den Pfad als „Kette von Hop-zu-Hop Verträgen“ formulieren

On-Call-Diagnose wird deutlich schneller, wenn Sie den Datenpfad als Kette von Verträgen verstehen: Jeder Hop hat ein Erwartungsprofil (Latenz, Fehlerrate, Timeout, Protokoll). Definieren Sie den Pfad explizit – idealerweise in einem Satz – und notieren Sie die wichtigsten Zwischenpunkte. Beispiel: „Browser → CDN/WAF → Ingress/LB → API-Service → Redis-Session-Store → Datenbank“.

Entry: CDN/WAF, Load Balancer, Ingress, API Gateway, Service Mesh Ingress/Egress.
Compute: Node/VM, Pod/Container, Sidecar/Proxy.
Dependencies: DB, Cache, Queue, Drittanbieter, Storage, Identity Provider.
Netzpfade: VPC/VNet, Peering/Transit, VPN/Direct Connect, NAT/Egress.

Wenn Sie Distributed Tracing nutzen, hilft eine einheitliche Instrumentierung. Als Einstieg sind die OpenTelemetry-Dokumentation und die dort beschriebenen Konzepte zu Traces, Spans und Kontextpropagation nützlich.

Schritt 3: Tests und Signale nach Ebenen – außen beginnen, innen verifizieren

Das Kernprinzip lautet: Beginnen Sie mit Signalen, die den Nutzerpfad abbilden (außen), und arbeiten Sie sich nach innen (Service, Dependency, Node). So vermeiden Sie, dass Sie interne Metriken optimieren, während der echte Kunde weiterhin scheitert. Parallel ordnen Sie jedes Signal grob einem Layer zu: DNS/TLS (L6/7), TCP (L4), Routing/MTU (L3), Overlay/L2-Effekte (L2) oder Applikationslogik (L7).

Layer-Check 1: DNS – schnellster Ausschluss, häufigster Single Point of Failure

DNS-Probleme wirken wie Netzwerk- oder Applikationsausfälle: Clients erreichen den Service nicht oder landen auf falschen Endpoints. Prüfen Sie deshalb früh, ob Namensauflösung korrekt, konsistent und zeitlich plausibel ist (TTL, Caches, Split-Horizon, private Zonen).

Ändert sich die Antwort (A/AAAA/CNAME) unerwartet zwischen Resolvern oder Regionen?
Sehen Sie NXDOMAIN/SERVFAIL-Spitzen oder erhöhte Lookup-Latenzen?
Ist ein kürzliches DNS-Update ausgerollt (z. B. neuer LB-Endpoint)?

Für DNS-Grundlagen und Failure Modes ist die technische Referenzsammlung der IETF hilfreich, z. B. über den RFC Editor (insbesondere, wenn Sie Protokolldetails nachvollziehen müssen).

Layer-Check 2: TLS und Zertifikate – „Network“-Symptome ohne Netzwerk-Root-Cause

TLS-Fehler erscheinen häufig als Timeouts oder Connection-Resets, vor allem wenn Clients unterschiedlich konfiguriert sind (Cipher Suites, SNI, ALPN, Trust Stores). Wenn nur bestimmte Clients betroffen sind oder der Ausfall domain-spezifisch wirkt, ist TLS ein Top-Kandidat.

Steigt die TLS-Handshake-Latenz oder die Handshake-Fehlerrate?
Haben Sie kürzlich Zertifikate rotiert, Chains geändert oder mTLS-Policies ausgerollt?
Fehlt eine Intermediate-CA in der Zertifikatskette oder ist ein Zertifikat abgelaufen?

Für TLS-Details ist die Spezifikation TLS 1.3 (RFC 8446) eine belastbare Grundlage, gerade wenn Sie Handshake-Phasen und Fehlerursachen eindeutig einordnen möchten.

Layer-Check 3: HTTP- und Gateway-Signale – 502/503/504 richtig interpretieren

HTTP-Statuscodes sind wertvoll, aber nur, wenn Sie den Erzeuger kennen: Kommt der Code vom Gateway/Ingress, vom Upstream-Service oder von der Anwendung selbst? 502/503/504 sind häufig „Proxy-Urteile“ über ein tieferes Problem (Timeout, Reset, DNS-Failure, Connection-Pool-Leerstand, Health-Check-Fehler).

504: Upstream hat nicht rechtzeitig geantwortet (kann App-Latenz, Network-Queueing oder Retry-Backlog sein).
503: Keine gesunden Backends oder Rate-Limit/Overload-Schutz aktiv.
502: Ungültige Antwort, Reset, Protokollinkompatibilität, TLS-Mismatch, Misroute.

Wenn Sie Ingress-Controller oder API-Gateways betreiben, sollten deren Logs und Metriken als „Layer zwischen Netzwerk und App“ behandelt werden. Viele Teams nutzen dafür ein separates Dashboard pro Entry-Komponente.

Layer-Check 4: TCP – Retransmissions, Resets und Timeouts als Entscheidungsanker

Transport-Signale sind eines der besten Unterscheidungsmerkmale: Wenn TCP-Retransmissions und RTT p95/p99 gleichzeitig steigen, deutet vieles auf Loss, Queueing oder Saturation im Pfad hin. Wenn hingegen TCP gesund wirkt, aber Requests langsam sind, liegt die Ursache eher in Applikation, Dependency oder Ressourcenkonkurrenz.

TCP-Retransmissions: steigen sie korreliert mit Latenz und Errors?
RST-Spikes: kommen sie vom Client, vom Proxy oder vom Server (z. B. Idle Timeout)?
Connection-Establishment: steigt SYN→SYN/ACK Zeit oder schlagen Verbindungsaufbauten fehl?

Als einfache Heuristik können Sie eine „Transport-Degradationsquote“ definieren, z. B. Retransmits pro gesendete Segmente:

DegradationRate = RetransmittedSegments SentSegments × 100 %

Wichtig ist nicht der absolute Wert, sondern die Abweichung von Ihrer Baseline und die Korrelation mit Nutzerimpact.

Layer-Check 5: Routing, MTU und Asymmetrie – die Klassiker hinter „sporadischen“ Fehlern

Wenn Probleme nur zwischen bestimmten Zonen/Regionen, nur über VPN/Private Link oder nur bei größeren Payloads auftreten, sind Layer-3-Effekte häufig. MTU-Mismatch führt typischerweise zu „Works on small payloads“: kleine Requests gehen durch, große hängen oder droppen. Asymmetrisches Routing wiederum bricht stateful Firewalls oder NAT.

Traceroute/Path-Tests von mehreren Standorten (auch aus dem Cluster heraus).
MTU/PMTUD prüfen, insbesondere bei Tunneln, Overlays, VPNs und Service Mesh Encapsulation.
Rückweg verifizieren: Kommt die Antwort über denselben Pfad zurück?

Layer-Check 6: Ressourcen und Plattform – wenn „Netzwerk“ nur das Symptom ist

Ein häufiger Fehlschluss: „Netzwerk ist langsam“ – in Wahrheit ist CPU saturiert, der Proxy überlastet oder conntrack/state-table am Node voll. Diese Fälle zeigen sich als Timeouts, Drops oder Retransmits, weil Pakete oder Connections im Edge-Compute nicht sauber verarbeitet werden. Prüfen Sie daher parallel Plattform-Sättigung entlang des Pfads.

CPU/Memory Pressure auf Nodes/VMs, insbesondere auf Ingress/Gateway/Sidecar-Intensiven Workloads.
Conntrack-/State-Table-Auslastung und Drops (Kubernetes-Nodes, Firewalls, NAT-Gateways).
Queueing/Saturation am Load Balancer (Connection Limits, Pending Requests, 503/429 Muster).

Schritt 4: Entscheidungskriterien – so klassifizieren Sie „Network“, „App“ oder „Middle“

Nach den Checks brauchen Sie eine klare Entscheidung, die Sie im Incident-Channel kommunizieren können. Der Trick ist, nicht nach Schuld zu suchen, sondern nach dem dominantesten Evidenzbündel. Drei Kategorien reichen meist: (A) Netzwerkdominant, (B) Applikationsdominant, (C) Middle/Plattformdominant (Ingress/LB/Mesh/DNS/TLS/NAT). Die Entscheidung wird besser, wenn Sie pro Kategorie harte Indikatoren definieren.

Indikatoren: Es ist wahrscheinlich das Netzwerk

RTT p95/p99 steigt zeitgleich für mehrere Services und nicht nur für einen Codepfad.
Retransmissions/Drops steigen korreliert mit Latenz und Errors.
Probleme sind zonal/region- oder pfadspezifisch (z. B. nur über VPN/Peering).
MTU-Symptome: große Payloads scheitern, kleine funktionieren stabil.

Indikatoren: Es ist wahrscheinlich die Anwendung oder eine Dependency

Transport ist sauber (RTT stabil, kaum Retransmits), aber Request-Latenz steigt im Server/Dependency-Spans.
Nur bestimmte Endpoints oder Business-Flows sind betroffen, andere Pfade sind normal.
Errors sind logisch (z. B. 4xx/5xx aus App) und korrelieren mit Deployments oder Feature-Flags.
Backends zeigen Sättigung oder Locks/Queueing (DB, Cache, Thread Pools), während Netzwerkmetriken ruhig bleiben.

Indikatoren: Es ist wahrscheinlich „Middle“ (Ingress/LB/Mesh/DNS/TLS/NAT)

Fehlercodes und Logs entstehen am Gateway/Ingress (z. B. 503 „no healthy upstream“, 504 „upstream timeout“).
TLS-Handshake-Fehler oder ALPN/SNI-Mismatches betreffen nur bestimmte Clients/Domains.
NAT-/Connection-Limits: Port Exhaustion, Connection Drops, Reset-Spikes bei Traffic-Spikes.
Service Mesh Sidecars zeigen erhöhte Latenz/Queueing, während App-Container nicht auffällig sind.

Das „Evidence Pack“ fürs On-Call: Minimalset an Artefakten pro Incident

Damit das Framework nicht nur Theorie bleibt, lohnt es sich, ein standardisiertes Evidence Pack zu definieren. Das reduziert Diskussionen und beschleunigt Eskalationen, weil jede Partei dieselben Fakten sieht. Ziel ist ein Paket, das Sie in 5–10 Minuten zusammensammeln können.

Symptom-Snapshot: betroffene Endpoints, Zeitfenster, Fehlertypen, Beispiel-Request-IDs.
Entry-Evidenz: Ingress/LB/Gateway-Metriken (5xx/4xx, Upstream-Timeouts, Health-Checks).
Transport-Evidenz: RTT p95/p99, Retransmissions, Reset-Rate, Connection-Errors.
Trace-Evidenz: ein Trace pro Fehlerklasse mit markierten Hot-Spots (Gateway vs. App vs. Dependency).
Change-Evidenz: letzte Deployments/Config-Changes im Zeitraum (App, Infra, Zertifikate, DNS, Policies).

Praktische On-Call-Fragen, die Debatten sofort verkürzen

Ein guter Incident-Leader stellt Fragen, die Hypothesen testbar machen. Diese Fragen sind bewusst so formuliert, dass sie entweder „Netzwerk“ oder „App“ wahrscheinlicher machen – ohne Schuldzuweisung.

„Ist der Impact über mehrere Services hinweg gleichartig oder auf einen Service/Endpoint beschränkt?“
„Sehen wir Transport-Degradation (RTT/Retransmits/Drops) zeitgleich mit dem Nutzerimpact?“
„Kommt der Fehlercode vom Gateway oder vom Upstream-Service?“
„Tritt das Problem nur in einer Region/AZ oder nur über einen bestimmten Connectivity-Pfad auf?“
„Welche Änderung ist am nächsten am Startzeitpunkt – App, Ingress/Policy, DNS, Zertifikat, Netzwerkroute?“

Typische Anti-Patterns, die „Netzwerk vs. App“ eskalieren lassen

Zu frühe Schuldzuweisung: „Netzwerk ist schuld“ ohne Transport-Evidenz oder „App ist schuld“ ohne Trace-Evidenz.
Nur Durchschnittswerte: p50 ist stabil, p99 explodiert – und niemand schaut hin.
Retries ohne Grenzen: Retries kaschieren Root Cause und erzeugen eine sekundäre Lastwelle.
Unklare Ownership der Mitte: Ingress, Mesh, NAT, DNS, TLS – niemand fühlt sich zuständig.

Wie Sie das Framework dauerhaft in Playbooks und Alerting verankern

Damit das Entscheidungs-Framework fürs On-Call zuverlässig funktioniert, muss es operationalisiert werden: in Dashboards, Alert-Routing, Runbooks und Trainings. Besonders hilfreich ist eine OSI-orientierte Alarmgruppierung: DNS/TLS/Ingress-Alarme getrennt von Transport- und Applikationsalarmen, ergänzt um Korrelationen (z. B. „p99 + Retransmits + 504“). Wenn Sie Ihre Observability standardisieren, sinkt die Zeit bis zur ersten belastbaren Hypothese drastisch.

Dashboards pro Pfadabschnitt: Entry, Service, Dependency, Plattform.
Standardisierte Labels: Blue/Green, Region/AZ, Cluster, Gateway-Name, Upstream-Service.
Runbook-Template mit denselben vier Schritten (Impact → Pfad → Layer-Checks → Klassifikation).
Post-Incident Review: Welche Signale fehlten? Welche Checks waren zu teuer? Was kann automatisiert werden?

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.