Distributed Tracing für „network-ish“ Problems: Richtig lesen

Red Snapper

2 months ago

Distributed Tracing für „network-ish“ Problems ist für viele Teams der schnellste Weg, um nebulöse Symptome wie „Timeouts“, „sporadische Disconnects“ oder „plötzlich hohe Tail Latency“ in konkrete Beweisketten zu übersetzen. Gleichzeitig ist genau hier das Risiko am größten, Traces falsch zu lesen: Ein Trace zeigt nicht „das Netzwerk“, sondern die Zeit, die eine Anwendung im Kontext einer Anfrage wahrnimmt. Zwischen „Span dauert lange“ und „das Netzwerk ist schuld“ liegen mehrere Schichten – DNS, TLS, Connection Pools, Load Balancer, Retries, Queues und Ressourcen-Sättigung. Wer Distributed Tracing für „network-ish“ Problems richtig lesen will, braucht daher ein sauberes Interpretationsmodell: Welche Trace-Signale deuten wirklich auf L3/L4-Probleme hin? Welche Signale sind eher L7- oder Runtime-Effekte, die nur wie Netzwerk aussehen? Und wie kombiniert man Tracing mit ergänzender Telemetrie, damit aus Vermutungen belastbare Evidenz wird? Dieser Artikel liefert ein praxisnahes Vorgehen, typische Muster, Fallstricke und eine Checkliste, damit Sie Traces in Incidents nicht nur ansehen, sondern beweisen können, was passiert.

Was „network-ish“ in Traces wirklich bedeutet

Der Begriff „network-ish“ beschreibt meist Symptome, die sich wie Netzprobleme anfühlen, aber nicht zwingend aus dem Underlay/Overlay kommen. In der Praxis gehören dazu:

Client-seitige Timeouts (Connect Timeout, Read Timeout, Deadline Exceeded)
Reset/Disconnects (ECONNRESET, Broken Pipe, Stream Reset)
Sporadische Latenzspitzen (p95/p99 springt, p50 bleibt stabil)
Fehler, die nur bestimmte Zonen/Regionen betreffen
„Works on small payloads“-Effekte (MTU/Fragmentierung, aber auch App-Limits)

Distributed Tracing bildet diese Symptome indirekt ab – als Zeitanteile in Spans, als Fehlerflags, als Retries und als auffällige Muster im kritischen Pfad. Die zentrale Regel lautet: Traces zeigen beobachtete Zeit, nicht notwendigerweise Netzwerkzeit. Ein langer „HTTP client“-Span kann Netzwerk, TLS, DNS, Server-Queueing oder lokale Blockade im Client (z. B. Threadpool) enthalten.

Die wichtigste Denkweise: Traces sind Pfad-Forensik, keine Layer-Analyse

Der größte Fortschritt beim Lesen von Traces für „network-ish“ Problems ist ein Perspektivwechsel: Statt „Layer“ zu erraten, lesen Sie zuerst den Pfad. Ein Trace beantwortet zuverlässig zwei Fragen:

Wo im System entsteht die Zeit oder der Fehler (welcher Service/Span)?
Wie verteilt sich die Zeit (DNS/TLS/Connect/Server/Downstream-Spans, sofern instrumentiert)?

Erst danach mappen Sie das Muster auf wahrscheinliche Schichten und holen zusätzliche Evidenz. Dieses Vorgehen verhindert, dass Sie ein L7-Retry-Problem als „Netzwerk instabil“ etikettieren oder eine echte L4-Degradation als „Service langsam“ abtun.

Span-Typen verstehen: Client, Server, Messaging und Sidecars

Bevor Sie Muster interpretieren, müssen Sie wissen, welche Art Span Sie sehen:

Server-Span: Zeit, die ein Service für die Verarbeitung einer Anfrage benötigt (inklusive seiner Downstream-Calls).
Client-Span: Zeit, die ein Aufrufer wahrnimmt, wenn er einen Downstream kontaktiert (inklusive Netzwerk/TLS, aber auch lokaler Overhead).
Messaging-Span: Producer/Consumer; „Latenz“ kann Queueing/Backlog sein, nicht Netzwerk.
Proxy/Sidecar-Span: In Service Meshes können zusätzliche Spans entstehen; sie helfen, L4/L7-Effekte zu trennen, wenn richtig getaggt.

Ein häufiger Fehler ist, eine lange Dauer im Client-Span automatisch als „Netzwerk“ zu lesen. In Wirklichkeit kann es sich um Warteschlange im Client (Connection Pool erschöpft), blockierende DNS-Auflösung oder TLS-Handshake-Storm handeln.

Vier Grundmuster, die „wie Netzwerk“ aussehen – und was sie oft wirklich sind

Muster: Client-Span ist lang, Server-Span fehlt

Wenn der Client-Span lange dauert oder mit Timeout endet, aber im Downstream kein korrespondierender Server-Span auftaucht, deutet das auf „nicht angekommen“ oder „nicht instrumentiert“ hin. „Nicht angekommen“ kann Netzwerk/Policy/Routing sein – oder bereits DNS/TLS/Connect.

Wahrscheinliche Ursachen: Connect Timeout, DNS-Probleme, Policy-Block (Security Group/NetworkPolicy), falsches Routing, Load Balancer, der nie zum Backend routet.
Trace-Interpretation: Fehlt der Server-Span komplett, ist das ein starkes Indiz für ein Problem vor der Applikationsverarbeitung des Downstreams.
Gegenprüfung: Ergänzende Netztelemetrie (Flow Logs, Load-Balancer-Logs, DNS-Metriken) ist hier Pflicht, weil Traces nur die Abwesenheit zeigen.

Muster: Client-Span und Server-Span sind beide lang

Wenn Client und Server gleichermaßen lange dauern, ist das oft kein Netzwerkproblem, sondern echte langsame Verarbeitung oder Downstream-Stalls im Server. Das Netzwerk trägt dann höchstens sekundär bei.

Wahrscheinliche Ursachen: Ressourcen-Sättigung, Lock-Contention, langsame DB, Garbage Collection, Backpressure, Queueing.
Trace-Interpretation: Der kritische Pfad zeigt typischerweise einen dominanten Downstream-Span (DB/Cache/API). Netzwerk ist selten die Root Cause, wenn die Server-Verarbeitung sichtbar lang ist.
Gegenprüfung: CPU, Memory, Threadpools, DB-Latenz, Queue-Länge, Rate Limits.

Muster: Viele kurze Fehler-Spans, Retries und steigende Tail Latency

Das ist das klassische „Retry Storm“-Muster. Es fühlt sich wie Netzinstabilität an („sporadisch klappt es“), wird aber häufig durch aggressive Retry-Policies, zu kurze Timeouts oder kaputte Idempotency ausgelöst.

Wahrscheinliche Ursachen: Zu viele Retries ohne Jitter, fehlendes Circuit Breaking, Timeout-Kaskaden, Connection Reuse fehlt, DNS-Flapping, überlasteter Downstream.
Trace-Interpretation: Sie sehen wiederholte Client-Spans mit ähnlichen Zielen und kurzen Dauern, oft mit Fehlerstatus; die Gesamtdauer der Parent-Span wächst durch Wiederholungen.
Gegenprüfung: Retry- und Timeout-Konfigurationen, Error Budget, Rate-Limits und Backoff-Strategien.

Muster: p99 steigt, p50 bleibt stabil, „nur manche Requests“ sind langsam

Dieses Tail-Latency-Muster ist besonders „network-ish“, weil es sporadisch wirkt. Es kann aber ebenso gut aus Lastverteilung, Hotspots oder spezifischen Pfaden kommen.

Wahrscheinliche Ursachen: Noisy Neighbor, sporadische Packet Loss, Re-Handshake-Ereignisse, Cache Misses, einzelne langsame Shards, Cold Starts, GC-Pausen.
Trace-Interpretation: In Traces finden Sie meist eine Untergruppe von Requests mit einem gemeinsamen Attribut (bestimmte Zone, bestimmter Host, bestimmter Endpoint, bestimmter User-Agent, bestimmter DB-Partition-Key).
Gegenprüfung: Segmentierung nach Region/AZ/Instance, Korrelation mit Deployments, Infrastruktursättigung, Netzmetriken (Drops/Jitter) für betroffene Segmente.

„Network-ish“ Signale, die Traces tatsächlich gut belegen können

Es gibt einige netznahe Phänomene, die Distributed Tracing erstaunlich gut sichtbar macht – vorausgesetzt, Ihre Instrumentierung erfasst die richtigen Teilzeiten.

DNS-Latenz und DNS-Fehler

Wenn Ihr Instrumentierungs-Framework DNS-Auflösung als Teilzeit ausweist oder zumindest Fehlercodes sichtbar sind, können Sie DNS als Root Cause identifizieren, ohne Paketmitschnitt. Hinweise sind steigende „name resolution“-Zeit, NXDOMAIN/ServFail-Muster oder zeitliche Korrelation mit Resolver-Problemen.

TLS-Handshake und Wiederverwendung

TLS-Handshake-Overhead zeigt sich, wenn neue Verbindungen häufig aufgebaut werden. Traces können indirekt belegen, dass Connection Reuse nicht greift: viele Client-Spans mit zusätzlicher Initiallatenz, korreliert mit steigender CPU (Krypto) oder mit Rotationsereignissen (Zertifikate, mTLS).

Connect Timeout vs. Read Timeout vs. Deadline Exceeded

Die Fehlerklassifikation ist entscheidend: „Connect Timeout“ deutet auf Probleme beim Verbindungsaufbau (Policy, Routing, SYN/SYN-ACK, Load Balancer, Port Exhaustion). „Read Timeout“ deutet eher darauf, dass die Verbindung steht, aber keine Antwort kommt (Server-Queueing, Downstream, Packet Loss, Retransmissions). „Deadline Exceeded“ kann beides sein, je nach Client-Implementation.

Die häufigsten Fehlinterpretationen – und wie Sie sie vermeiden

„Span ist lang = Netzwerk ist langsam“: Prüfen Sie zuerst, ob der Span auf Connection Pool wartet oder Retries enthält. Lange Zeit kann lokal entstehen.
„Keine Traces beim Downstream = Downstream ist down“: Es kann auch Sampling, fehlende Instrumentierung oder ein Proxy sein, der Traces nicht propagiert.
„Fehler sind 4xx, also Client schuld“: Rate Limits, WAF/Bot-Controls und Auth-Fehlkonfigurationen erzeugen 4xx, obwohl das System die Root Cause ist.
„Nur ein Service ist betroffen“: Ein gemeinsamer Dependency-Punkt (DNS, Gateway, NAT, Mesh-CA) kann sich in Traces als einzelner Service-Bottleneck manifestieren.

So lesen Sie einen Trace systematisch: Ein praxistaugliches 7-Schritte-Schema

Symptom-Schnitt: Filtern Sie zuerst nach dem Symptom (Timeout, Reset, p99 hoch) und einem klaren Zeitfenster.
Kritischer Pfad: Identifizieren Sie die längsten Spans, nicht die meisten Spans.
Client vs. Server trennen: Ist die Zeit im Client-Span oder im Server-Span dominant?
Existenz prüfen: Gibt es korrespondierende Server-Spans? Wenn nein, liegt das Problem wahrscheinlich „vor“ dem Downstream-Service.
Retry- und Error-Muster prüfen: Wiederholungen, Fehlercodes, „attempt“-Attribute, idempotency-relevante Operationen.
Segmentieren: Nach AZ/Region/Instance/Endpoint/User-Agent/Version. Tail-Probleme werden hier sichtbar.
Evidenz ergänzen: Wählen Sie gezielt eine zweite Datenquelle passend zur Hypothese (Flow Logs, LB-Logs, DNS-Metriken, CPU/Queue/Conntrack/NAT).

Brückenattribute: Damit Traces für Netzfragen belastbarer werden

Damit Distributed Tracing für „network-ish“ Problems wirklich funktioniert, brauchen Sie konsistente Metadaten. Besonders hilfreich sind:

Zielkontext: Hostname, IP (sofern möglich), Port, Protokoll, Region/AZ des Ziels.
Netz-Fehlerklassifikation: standardisierte Fehlercodes/Exceptions als Attribute, nicht nur als Text.
Retries/Attempts: attempt_number, retry_reason, backoff_ms (oder analoge Felder).
Connection-Reuse Indikatoren: connection_reused=true/false, handshake_performed=true/false (wenn verfügbar).

Wenn Sie OpenTelemetry nutzen, hilft es, sich an den semantischen Konventionen zu orientieren (OpenTelemetry Semantic Conventions), damit Teams und Tools dieselbe Sprache sprechen.

Tracing im Zusammenspiel: Wann Sie zwingend ergänzende Netztelemetrie brauchen

Es gibt Situationen, in denen Tracing allein strukturell nicht reicht, weil die entscheidende Information außerhalb des instrumentierten Bereichs liegt. Typische Beispiele:

Policy- und Routing-Probleme: Wenn Traffic blockiert oder fehlgeroutet wird, existieren häufig keine Downstream-Spans.
NAT/Port Exhaustion: Traces zeigen Timeouts/Connect Errors, aber die Ursache liegt in NAT/Conntrack/Port-Allocation.
Underlay-Degradation: Packet Loss/Jitter kann indirekt sichtbar werden (Timeouts, Retries), ist aber ohne L3/L4-Signale schwer zu beweisen.

In solchen Fällen ist die Kombination mit Flow Logs oder Load-Balancer-Logs besonders effektiv. Eine gute Referenz, um das Prinzip von Flow Logs und deren Interpretation zu verstehen, ist die jeweilige Cloud-Dokumentation, z. B. für AWS (AWS VPC Flow Logs).

Konkrete „network-ish“ Playbooks, die Sie aus Traces ableiten können

Playbook: Connect Timeout häuft sich

In Traces nach Client-Spans mit Connect-Fehlern filtern; prüfen, ob Server-Spans fehlen.
Segmentieren nach AZ/Region/Instance: Ist es lokalisiert?
Hypothesen: Policy-Block, Route Table, LB-Target-Health, NAT/Port-Knappheit.
Evidenz ergänzen: Flow Logs (ACCEPT/REJECT), LB-Logs, NAT/Conntrack-Metriken.

Playbook: Read Timeout/Deadline Exceeded steigt, aber Connectivity wirkt ok

Prüfen, ob Server-Spans existieren und ob Downstream-Spans dominieren.
Retry-Muster identifizieren; Parent-Span-Latenz gegen Anzahl Retries korrelieren.
Hypothesen: Server-Queueing, DB langsam, Backpressure, Packet Loss/Retransmissions.
Evidenz ergänzen: Server-Ressourcen, DB-Metriken, ggf. Netzmetriken (Drops, Retransmits).

Playbook: Sporadische Resets (ECONNRESET/Broken Pipe)

In Traces die betroffenen Endpunkte und Clients gruppieren (User-Agent, Region, Version).
Prüfen, ob es mit Idle-Phasen korreliert (Keepalive/Idle Timeout), oder mit Deployments.
Hypothesen: Idle Timeout am LB/Proxy, aggressive Connection-Recycling, MTU/Fragmentierung, mTLS/Certificate-Rotation, Proxy-Resets.
Evidenz ergänzen: LB-Timeout-Konfiguration, Proxy-Logs, TLS-Metriken.

Quantifizierung: Warum Tail Latency oft „netzig“ wirkt

Ein Kernproblem ist, dass wenige langsame Requests die Wahrnehmung dominieren. In Traces lässt sich das quantifizieren, indem Sie den Anteil der langsamen Requests mit bestimmten Attributen vergleichen. Eine einfache, nachvollziehbare Kennzahl ist der Anteil problematischer Requests pro Segment:

p = n ( t > T ) n ( alle )

Hier ist T ein Schwellenwert (z. B. 2 s für „zu langsam“) und p der Anteil langsamer Requests. Wenn p in einer AZ plötzlich deutlich höher ist als in anderen, ist das ein starkes Indiz für segmentbezogene Ursachen (Routing, lokale Sättigung, noisy neighbor, zonale Netzdegradation).

Best Practices für E-E-A-T: Wie Sie Tracing-Befunde nachvollziehbar dokumentieren

Damit Ihre Analyse nicht als Meinung, sondern als belastbare Diagnose gilt, sollten Sie Ihre Findings reproduzierbar formulieren:

Zeitraum und Scope: exakter Zeitraum, betroffene Services, betroffene Regionen/Zonen.
Beobachtung: Was zeigen Traces konkret? (z. B. „Client-Span X mit Timeout, Server-Span fehlt“).
Hypothese: Welche Schicht ist plausibel und warum?
Gegenbeweis/Abgrenzung: Welche Alternative wurde geprüft und ausgeschlossen?
Zusätzliche Evidenz: Mindestens ein zweites Signal, das die Hypothese stützt.

Checkliste: Traces für „network-ish“ Problems richtig lesen

Fehlt ein korrespondierender Server-Span? Wenn ja, denken Sie „vor dem Service“ (DNS/TLS/Connect/Policy/Routing).
Ist die Zeit im Client-Span lokal erklärbar (Pool, Threadpool, Queueing), bevor Sie „Netzwerk“ sagen?
Gibt es Retry-Muster, die die Tail Latency künstlich aufblasen?
Segmentieren Sie immer nach AZ/Region/Instance/Version, bevor Sie global schlussfolgern.
Ergänzen Sie Netztelemetrie gezielt, wenn Traces strukturell keine Antwort liefern können.
Dokumentieren Sie Beobachtung → Hypothese → Evidenz als klare Kette.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.