Runbook „503 vom Sidecar“

Red Snapper

1 month ago

Ein Runbook „503 vom Sidecar“ ist in Service-Mesh-Umgebungen (z. B. Istio/Envoy) besonders wichtig, weil ein HTTP 503 hier oft nicht bedeutet, dass die Applikation selbst „down“ ist. Häufig kommt die Antwort direkt aus dem Sidecar-Proxy, weil er den Upstream nicht erreichen kann, keine gesunden Endpoints sieht, eine Verbindung nicht aufbauen kann oder der Datenpfad durch Timeouts, Circuit Breaking oder mTLS-Probleme blockiert wird. Das macht die Diagnose anfällig für Fehlinterpretationen: Teams debuggen die App, obwohl der Proxy die Ursache ist, oder sie drehen an Retry/Timeout-Werten, obwohl eigentlich DNS, Endpoints oder Conntrack der Engpass sind. Dieses Runbook führt Sie Schritt für Schritt durch die typische Fehlerkette: Erst klassifizieren Sie die 503-Variante (welcher Envoy-Response-Flag, welcher Pfad, welcher Hop), dann prüfen Sie Endpoints und Routing, anschließend TLS/mTLS und schließlich Ressourcen- und Node-Effekte. Ziel ist, innerhalb weniger Minuten zu entscheiden: „Ist das ein Traffic-/Mesh-Problem, ein Upstream-/Service-Problem oder ein Node-/Underlay-Problem?“ und anschließend gezielt zu handeln, statt breitflächig zu „probieren“.

Symptom-Klassifizierung: Was bedeutet „503 vom Sidecar“ in der Praxis?

Bevor Sie irgendetwas ändern, müssen Sie die 503-Antwort einordnen. In Envoy-basierten Meshes ist 503 ein Sammelstatus für mehrere Ursachen. Typische Muster:

„no healthy upstream“: Der Proxy sieht keinen gesunden Endpoint (z. B. Endpoints fehlen, Readiness falsch, Outlier Detection hat alles ejected).
Upstream connect error / disconnect / reset: Verbindungsaufbau zum Upstream scheitert oder wird zurückgesetzt (Netzwerk, mTLS, Firewall, conntrack, Port falsch).
Timeout-basiert: Upstream antwortet nicht rechtzeitig (App langsam, Proxy-Timeout, LB-Timeout, Retry Storm).
Circuit Breaking / Overload: Proxy lehnt ab, weil Limits greifen (Connection Pool voll, Pending Requests voll, Overload Manager).

Der wichtigste erste Schritt: Finden Sie heraus, ob der 503 lokal vom Proxy erzeugt wurde oder ob er vom Upstream kommt und nur durch den Proxy weitergereicht wird. Diese Unterscheidung entscheidet den gesamten Debugging-Pfad.

Schnellcheck: Ist es wirklich der Sidecar und nicht die App?

Führen Sie drei Checks parallel durch, um die Ursache grob zu lokalisieren:

Vergleich mit Sidecar-Bypass (falls möglich): Wenn Sie denselben Service außerhalb des Meshes oder ohne Sidecar erreichen können, ist das ein starkes Indiz für Mesh/Proxy.
Direkter Pod-IP-Test: Wenn ein Request direkt auf die Pod-IP funktioniert, aber über Service/DNS nicht, deutet das auf Endpoints, kube-proxy oder Mesh-Routing hin.
Nur bestimmte Pods betroffen: Wenn 503 nur auf bestimmten Nodes/Pods auftritt, ist das häufig ein Konvergenz-, Ressourcen- oder Node-Problem (z. B. conntrack, IRQ/CPU, MTU).

Wichtig: Ein Sidecar kann 503 liefern, obwohl die App gesund ist. Gleichzeitig kann die App 503 liefern und der Sidecar ist nur „Bote“. Deshalb brauchen Sie die Proxy-Sicht als harte Evidenz.

Beweise sammeln: Header, Flags, Logs und Metriken

Wenn Sie nur eine Sache im Incident konsequent tun, dann diese: Sammeln Sie eindeutige Signale aus dem Proxy. Damit vermeiden Sie, dass das Team in die falsche Richtung debuggt.

HTTP-Header und Response-Details prüfen

Häufig liefert Envoy hilfreiche Hinweise in Response-Headern oder im Body (abhängig von Konfiguration). Achten Sie insbesondere auf:

x-envoy-response-flags: Ein kurzer Code, der die Fehlerklasse beschreibt (z. B. „UF“ für Upstream Failure, „UO“ für Upstream Overflow, „NR“ für No Route).
x-envoy-upstream-service-time: Wenn vorhanden und >0, war der Upstream erreichbar und hat geantwortet; wenn 0 oder fehlend, ist oft der Proxy vorher gescheitert.
Antworttext „no healthy upstream“: Sehr häufig ein lokales Proxy-Response-Muster.

Wenn Sie keinen Zugriff auf die Header haben, sind Access Logs der nächste Schritt.

Sidecar-Access-Logs auswerten

Idealerweise haben Sie in Sidecars/Gateways Access Logs aktiv (zumindest im Incident). Dort sehen Sie pro Request Route, Upstream-Cluster, Response-Flags und Timing. Suchen Sie nach:

Response Code 503 + Response Flags: Welche Flag dominiert?
Upstream Host: Wird ein konkreter Endpoint gewählt oder bleibt es leer?
Dauer und Bytes: Sehr kurze Dauer deutet auf lokale Ablehnung (Route fehlt, no healthy upstream, circuit break). Längere Dauer deutet eher auf Timeout/Upstream.

Wenn Ihr Mesh Envoy nutzt, ist das Verständnis der Admin-/Ops-Schnittstellen hilfreich: Envoy Admin Interface.

Proxy-Metriken als Reality Check

Auch ohne Logs können Metriken schnell die Richtung klären. Besonders nützlich sind:

Upstream Connect Failures: Häufung spricht für Netzwerk/mTLS/DNS/Port.
Upstream RQ Timeouts: Spricht für Timeout-Alignment oder langsamen Upstream.
No Healthy Upstream / Cluster Membership: Endpoints fehlen oder sind ejected.
Circuit Breaker Overflows: Pending Requests/Connections am Limit.

Pfad klären: Wo entsteht der 503?

Ein häufiger Fehler ist, den falschen Hop zu untersuchen. Stellen Sie daher explizit fest, an welcher Stelle der 503 entsteht:

Client-Sidecar: Der Proxy beim aufrufenden Service erzeugt 503, weil er den Upstream nicht erreicht oder keine Route hat.
Server-Sidecar: Der Proxy beim Zielservice erzeugt 503, z. B. bei mTLS/Policy/Filter-Problemen (seltener als bei 401/403, aber möglich bei Upstream-Weiterleitung).
Gateway: Ingress/Egress Gateway erzeugt 503, z. B. „no healthy upstream“ bei fehlenden Endpoints, falscher Destination oder falschem Port.

Praktisch heißt das: Prüfen Sie sowohl Client- als auch Server-Pod. Im Zweifel beginnen Sie beim Hop, der den 503 sichtbar liefert (z. B. der Pod, in dem das Curl läuft), und gehen dann schrittweise weiter.

Ursacheklasse A: „No healthy upstream“ und Endpoint-Probleme

Wenn der Proxy „no healthy upstream“ meldet oder klar ist, dass kein Endpoint gewählt wird, ist die wahrscheinlichste Ursache: Der Service hat keine (gesunden) Endpoints aus Sicht des Proxys.

Service und Endpoints prüfen

Endpoints vorhanden? Ein Service ohne Endpoints führt oft sofort zu „no healthy upstream“.
Readiness korrekt? Wenn Pods laufen, aber nicht „ready“ werden, verschwinden sie aus Endpoints.
Port/TargetPort korrekt? Ein häufiger Fehler: Service-Port zeigt auf falschen Containerport oder falschen Named Port.

Wenn Sie Istio nutzen, hilft es, die Istio-Traffic-Objekte (z. B. VirtualService/DestinationRule) in die Prüfung einzubeziehen, weil Fehlrouting ebenfalls zu „keine gesunden Upstreams“ führen kann: Istio Traffic Management.

Outlier Detection und Ejection beachten

Auch wenn Endpoints existieren, kann das Mesh sie als „ungesund“ markieren. Typisch nach Fehler-Spikes oder falsch gesetzten Circuit-Breaking-Parametern:

Symptom: Endpoints sind da, aber Envoy wählt keinen.
Indikator: Metriken zeigen Ejections oder stark reduzierte Cluster-Membership.
Ursache: Aggressive Outlier Detection, falsche Error-Thresholds, kurze Intervalle.

Ursacheklasse B: Verbindungsaufbau scheitert (Connect Failures, Resets)

Wenn der Proxy versucht zu verbinden, aber scheitert, liegt das meist an einem dieser Bereiche: DNS/Name Resolution, Routing/NetworkPolicy/Security Groups, falscher Port, oder mTLS/TLS-Probleme.

DNS und Namensauflösung im Pod prüfen

Symptom: Sporadische 503, besonders bei neuen Pods oder Lastspitzen.
Prüfung: DNS-Latenz und NXDOMAIN/Timeouts (CoreDNS, NodeLocal DNSCache).
Hinweis: DNS-Probleme führen oft zu Connect Failures oder zu Traffic auf falsche Ziele (wenn Caches inkonsistent sind).

Für CoreDNS-Fehlerbilder und Debugging ist diese Referenz hilfreich: CoreDNS Manual.

NetworkPolicy / Firewall / Routing als Ursache

Gerade in Kubernetes-Setups mit NetworkPolicies oder Cloud-Firewalls kann der Proxy keinen TCP-Handshake abschließen. Typische Indizien:

Nur bestimmte Quellen betroffen: z. B. ein Namespace darf nicht zu einem anderen sprechen.
Nur bestimmte Ports betroffen: Service-Port offen, aber TargetPort blockiert.
Intermittierend nach Scale-out: Neue Nodes/Pod-CIDRs sind nicht in Regeln enthalten.

mTLS/TLS-Mismatch als versteckte 503-Ursache

mTLS-Probleme zeigen sich nicht immer als 401/403. Häufiger sind Verbindungsabbrüche, Resets oder Handshake-Fails, die am Ende als 503 im Client auftauchen. Achten Sie auf:

STRICT vs. PERMISSIVE gemischt: Ein Teil des Pfads erwartet mTLS, der andere sendet plaintext.
Trust Chain / CA-Rotation: Proxies vertrauen unterschiedlichen Roots.
SNI/Host-Mismatch: Besonders bei Gateways oder TLS-Passthrough.

Wenn Sie mTLS gerade migrieren oder kürzlich ein Mesh-Upgrade hatten, ist diese Istio-Seite ein guter Anker: Istio mTLS Migration.

Ursacheklasse C: Timeouts, Retries und „scheinbar zufällige“ 503

Timeouteffekte sind tückisch, weil sie sich bei Lastspitzen oder partiellen Degradationen verstärken. Ein Request wird langsam, Retries steigen, Last steigt weiter, und der Proxy beginnt zu timeouten oder abzulehnen. Ergebnis: 503, die wie „Netzwerk“ wirken, aber aus Überlast entsteht.

Timeout-Alignment entlang des Pfads

Prüfen Sie, ob Timeouts konsistent sind zwischen App, Sidecar und ggf. Load Balancer/Gateway. Ein typisches Anti-Pattern ist:

Client hat sehr kurzen Timeout (z. B. 1s)
Proxy hat längeren Timeout (z. B. 15s) und retried
Upstream arbeitet weiter, obwohl der Client bereits weg ist

Das erhöht die Last auf Upstream und Proxy und kann zu 503 durch Overload führen. In Istio-Kontext sind Timeouts und Retries typischerweise im VirtualService definiert: Istio VirtualService Referenz.

Retry-Storm-Indikatoren

Symptom: 503 treten in Wellen auf, parallel steigen RPS und Latenz.
Indikator: Proxy-Metriken zeigen erhöhte Retry-Rate und Upstream-Timeouts.
Risiko: Retries verschärfen das Problem, statt es zu lösen.

Ursacheklasse D: Circuit Breaking, Connection Pools, Overload

Wenn der Proxy selbst an Grenzen stößt, kann er Requests aktiv ablehnen. Das ist häufig bei Scale-out, bei hoher Parallelität oder bei ungünstigem Connection Pooling (insbesondere bei HTTP/2/gRPC) sichtbar.

Connection Pool und Pending Requests

Symptom: 503 mit sehr kurzer Dauer, häufig unter Last, häufig nur bei bestimmten Routen.
Indikator: Metriken wie „upstream_cx_overflow“, „upstream_rq_pending_overflow“ oder ähnliche Overflows.
Ursache: Zu restriktive Pool-Limits, zu viele parallele Requests, zu wenig Upstream-Capacity.

Overload Manager und Ressourcenlimits

Ein Sidecar ist ein eigener Prozess mit CPU-/Memory-Requests und Limits. Wenn der Sidecar throttled (CPU) oder unter Memory Pressure gerät, verschlechtert sich das Verhalten in einem Muster, das wie „Netzwerkfehler“ aussieht.

Symptom: 503 gehäuft auf Pods mit hoher CPU-Throttling-Rate oder Memory Pressure.
Prüfung: Container-Ressourcen, CPU-Throttling, OOMKills, Restart-Zähler.
Mitigation: Sidecar-Requests/Limits realistisch setzen, Hotspots identifizieren, ggf. Proxy-Logging reduzieren (im Normalbetrieb).

Ursacheklasse E: Node- und Kernel-Probleme (conntrack, Drops, IRQ/CPU)

Wenn 503 nur auf bestimmten Nodes auftreten oder nach Scale-out beginnen, sind Node-Effekte sehr häufig. Ein Mesh verstärkt diese Effekte, weil jeder Pod zusätzliche Verbindungen, mehr Flow-States und mehr Paketverarbeitung erzeugt.

Conntrack-Druck und „zufällige“ Verbindungsabbrüche

Symptom: Intermittierende Connect Failures/Resets, oft nur auf Teilmengen von Nodes.
Indikator: Kernel-Meldungen zu conntrack table full, steigende Drops, neue Verbindungen scheitern.
Mitigation: conntrack-Größe und Timeouts prüfen, Lastverteilung verbessern, NAT-Pfade minimieren.

IRQ/CPU-Saturation und Paketdrops

Symptom: Spikes in Latenz und 503 bei hoher Paketlast; betroffene Nodes zeigen erhöhte SoftIRQ-Zeit.
Indikator: Interface-Drops, qdisc-Drops, CPU-Steal oder starkes Throttling.
Mitigation: Node-Sizing, IRQ-Balancing, CNI-Tuning, observabilityseitig betroffene Nodes identifizieren.

Entscheidungsbaum: Schnell zur wahrscheinlichsten Ursache

Wenn Sie im Incident schnell entscheiden müssen, nutzen Sie diesen pragmatischen Entscheidungsbaum als Orientierung:

Antworttext „no healthy upstream“ oder kein Upstream-Host im Log: Endpoints/Health/Outlier Detection/Route.
Sehr kurze Dauer + Overflow-Indikatoren: Circuit Breaking/Connection Pool/Overload.
Längere Dauer + Timeouts in Metriken: Timeout-Alignment oder Upstream langsam.
Connect Failures/Resets + nur bestimmte Nodes: Node/Kernel/Underlay (conntrack, drops, IRQ).
Connect Failures/Resets + nach mTLS/Upgrade: mTLS/Trust/Version-Skew prüfen.

Sofortmaßnahmen: Was ist im Incident „sicher“?

Ein Runbook ist nur dann hilfreich, wenn es auch sichere Sofortmaßnahmen benennt, die nicht noch mehr Schaden verursachen. Die folgenden Maßnahmen sind in vielen Situationen risikoarm, sofern Sie sie gezielt anwenden:

Traffic begrenzen: Wenn Retry-Storm oder Overload droht, Retries reduzieren oder temporär deaktivieren und Timeouts harmonisieren (konservativ).
Gesunde Endpoints wiederherstellen: Readiness/Service-Port korrigieren, fehlerhafte Pods aus dem Traffic nehmen.
Betroffene Nodes entlasten: Workloads von einem auffälligen Node drainen (falls Ihr Betriebsmodell das erlaubt) und Node-Metriken prüfen.
Rollback von riskanten Policy-/Routing-Änderungen: Wenn ein VirtualService/DestinationRule-Change zeitlich korreliert, ist ein Rückbau oft schneller als tiefes Tuning im Incident.
Sidecar-Ressourcen stabilisieren: Bei klarer Proxy-Überlast Sidecar-CPU/Memory erhöhen (gezielt, nicht flächig), um Throttling zu reduzieren.

Vermeiden Sie im Incident möglichst „blindes“ Erhöhen von Retries oder aggressives Verlängern von Timeouts, wenn Sie nicht sicher sind, dass der Upstream tatsächlich nur „kurz langsam“ ist. Das verschiebt das Problem oft von Latenz zu Ausfall.

Nacharbeiten: Welche Daten sollten Sie für die Root Cause sichern?

Auch wenn der Incident behoben ist, brauchen Sie Artefakte, um die Ursache sauber zu schließen und Wiederholungen zu verhindern. Sichern Sie idealerweise:

Beispiel-Trace/Request-IDs: Zeitfenster, betroffene Routen, repräsentative Requests.
Proxy-Logs oder Auszüge: 503-Events mit Response Flags, Upstream-Cluster, Dauer.
Proxy-Metriken: Timeouts, Resets, Overflows, Cluster-Membership vor/während/nach dem Incident.
Node-Signale: Drops, conntrack-Status, CPU/IRQ-Last, Netzwerkinterface-Statistiken.
Änderungshistorie: Mesh-Upgrade, Policy-Change, Routing-Change, CNI-Change im relevanten Zeitfenster.

Outbound-Quellen für vertiefende Informationen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.