Ingress Controller 502/503/504: Debugging von L4 bis L7

Red Snapper

1 month ago

Ein plötzlicher Anstieg von Ingress Controller 502/503/504-Fehlern ist in Kubernetes einer der häufigsten Gründe für akuten Incident-Druck: Nutzer sehen „Bad Gateway“, „Service Unavailable“ oder „Gateway Timeout“, während Pods scheinbar „Running“ sind und Deployments unverändert wirken. Genau darin liegt die Schwierigkeit: Diese Statuscodes entstehen nicht an einer einzigen Stelle, sondern sind das Ergebnis einer Kette aus Netzwerk- und Applikationskomponenten – vom Client über DNS, Load Balancer und Ingress bis zum Service, Endpoint und schließlich zur Anwendung selbst. Wer hier nur auf Layer 7 schaut, übersieht oft Layer-4- oder sogar Layer-3-Probleme wie MTU-Mismatches, SNAT-Erschöpfung oder fehlerhafte Health-Checks. Umgekehrt bringt reines Netzwerk-Debugging wenig, wenn ein Upstream wegen falsch gesetzter Timeouts, unpassender Keep-Alive-Parameter oder Überlastung in der App nicht mehr rechtzeitig antwortet. Dieser Leitfaden zeigt ein praxiserprobtes Vorgehen, um 502/503/504 systematisch von L4 bis L7 zu debuggen, Telemetrie sinnvoll zu nutzen, typische Root Causes zu erkennen und wiederkehrende Ausfälle durch klare Standards und Regressionstests zu vermeiden.

Was bedeuten 502, 503 und 504 am Ingress wirklich?

Die Fehlercodes sind ein Hinweis auf die Stelle, an der ein Proxy oder Gateway die Anfrage nicht erfolgreich „durchreichen“ konnte. Wichtig ist: Der Ingress Controller erzeugt diese Codes oft selbst – auch wenn die Anwendung nie eine Antwort gesendet hat. Je nach Implementierung (z. B. NGINX Ingress, HAProxy Ingress, Traefik, Envoy-basierte Gateways) sind Details leicht unterschiedlich, die Grundmuster sind jedoch stabil.

502 Bad Gateway: Der Ingress konnte eine Verbindung zum Upstream aufbauen, erhält aber eine ungültige/unerwartete Antwort oder die Verbindung bricht „unpassend“ ab (z. B. Reset, Protokollfehler, TLS-Mismatch, HTTP/2-Probleme).
503 Service Unavailable: Kein erreichbarer Upstream vorhanden oder der Ingress entscheidet, nicht weiterzuleiten (z. B. keine Endpoints, Upstream als „unhealthy“, Konfigurationsfehler, Wartungsmodus, Rate Limit/Overload).
504 Gateway Timeout: Der Ingress wartet auf eine Antwort des Upstreams, aber der Upstream liefert innerhalb des konfigurierten Timeouts keine vollständige Antwort (z. B. App hängt, DB langsam, Queue-Backlog, falsche Timeouts zwischen Ingress und Service Mesh).

Warum „gleiche Symptome“ unterschiedliche Ursachen haben

Ein 504 kann durch eine langsame Datenbank entstehen – oder durch Paketverlust, der TCP retransmits erzeugt. Ein 503 kann ein echtes Kapazitätsproblem sein – oder schlicht „keine Endpoints“, weil ein Label nicht passt. Die wichtigste Regel: Debugging startet nicht bei Vermutungen, sondern bei Beweisen entlang der Kette (Client → LB → Ingress → Service → Pod).

Debugging-Strategie: Von außen nach innen, von L4 nach L7

Das robusteste Vorgehen ist zweidimensional: Sie bewegen sich entlang des Request-Pfads (außen nach innen) und prüfen gleichzeitig Schicht für Schicht (L4 bis L7). So vermeiden Sie klassische Fallen wie „Ingress neu starten“ als Reflex oder stundenlanges App-Profiling, obwohl die Endpoints leer sind.

Pfad: Client → DNS → (Cloud) Load Balancer → Ingress Service → Ingress Pod → Service/Endpoints → Upstream Pod
Schichten: L3 Routing/ACL → L4 TCP/TLS → L7 HTTP/Headers/Routes → App/Dependencies

L4-Check: Erreicht der Traffic den Ingress zuverlässig?

Bevor Sie HTTP-Logs lesen, stellen Sie sicher, dass die Verbindungsschicht stabil ist. L4-Probleme sind besonders heimtückisch, weil sie als 502/504 „verkleidet“ auftreten können.

DNS-Auflösung: Zeigt der Hostname auf den korrekten Load Balancer? Stimmen TTLs und gibt es kürzliche Änderungen?
Load-Balancer-Health: Sind die Ingress-Backends im LB gesund? Fehlkonfigurierte Health-Checks führen zu intermittierendem Routing.
Firewall/ACL: Security Groups/NACLs/Firewall-Regeln: Hat sich etwas geändert, das Health-Checks oder Client-Traffic blockiert?
TCP-Handshake: Gibt es SYN-Timeouts oder Verbindungsabbrüche? Das deutet auf Routing, Drops oder Kapazitätsengpässe hin.

Typische L4-Fallen in Kubernetes

SNAT-/Conntrack-Engpässe: Viele gleichzeitige Verbindungen, aggressive Retries oder NAT-lastige Pfade können neue Verbindungen scheitern lassen – sichtbar als Timeouts/502.
MTU/PMTUD-Probleme: „Small works, large fails“ kann beim TLS-Handshake oder bei größeren Response-Headers als 502/504 erscheinen.
Asymmetrisches Routing: Rückpakete gehen über einen anderen Pfad und werden verworfen, häufig in hybriden Setups oder bei komplexen Route Tables.

Ingress-Controller-Ebene: Status, Ressourcen und Konfig-Reloads

Wenn L4 grundsätzlich funktioniert, prüfen Sie den Ingress Controller selbst. Ein überlasteter Ingress kann 503 erzeugen (Overload), ein fehlerhafter Reload kann Routen temporär entfernen, und limitierende Worker- oder Buffer-Einstellungen können 502/504 begünstigen.

Replica- und Pod-Status: Reicht die Anzahl an Ingress-Pods? Gibt es CrashLoops, OOMKills oder häufige Restarts?
CPU/Memory/FD Limits: Hohe CPU kann TLS-Termination bremsen, zu niedrige File-Descriptor-Limits begrenzen gleichzeitige Connections.
Queueing/Worker Saturation: Wenn Worker ausgelastet sind, steigen Latenzen und Timeouts – oft zuerst als 504 sichtbar.
Config Reload Events: Häufige Reloads (z. B. durch viele Ingress-Objektänderungen) können kurzzeitige 502/503-Spikes verursachen.

Ingress-Logs richtig lesen (ohne sich zu verlieren)

Bei NGINX-basierten Ingressen sind Access- und Error-Logs zentral. Achten Sie auf Felder wie Upstream-Status, Upstream-Response-Time, Request-Time und die konkrete Upstream-Adresse. Wenn Upstream-Status leer ist, hat der Ingress den Upstream eventuell gar nicht erreicht (oder keine Route/Endpoints). Wenn Upstream-Response-Time hoch ist und Request-Time an ein Timeout-Limit stößt, ist 504 wahrscheinlich „echtes Warten“.

Kubernetes-Service- und Endpoint-Check: 503 durch „keine Backends“

Ein großer Anteil an 503-Fehlern im Ingress hat nichts mit der Anwendung zu tun, sondern mit der Service-Discovery in Kubernetes. Der Ingress routet zu einem Service; der Service routet zu Endpoints; Endpoints werden aus Pod-Labels und Readiness gebildet.

Service existiert und ist korrekt: Port, TargetPort, Selector, Namespace – einfache Tippfehler reichen.
Endpoints vorhanden: Wenn keine Endpoints existieren, kann der Ingress nicht routen und antwortet häufig mit 503.
Readiness vs. Liveness: Wenn Pods laufen, aber nicht „Ready“ sind, werden sie nicht als Endpoint genutzt.
Rolling Deployments: Zu aggressive MaxUnavailable/Surge-Einstellungen können Endpoints kurzzeitig ausdünnen.

Warum „Ready“ nicht gleich „erreichbar“ ist

Ein Pod kann Ready sein, aber trotzdem nicht erreichbar: falscher Container-Port, NetworkPolicy blockt, Sidecar interceptet falsch, oder die App lauscht nur auf localhost. Dann sehen Sie im Ingress typischerweise 502 (Upstream connect failed / reset) oder 504 (connect hängt), je nach Verhalten.

L7-Check: Routing, Hostnames, Pfade und Header-Mismatches

Wenn Endpoints vorhanden und Verbindungen grundsätzlich möglich sind, wechseln Sie auf Layer 7. Hier entstehen viele 404/308/401 – aber auch 502/503/504, wenn Route-Regeln auf nicht existierende Upstreams zeigen oder Protokolle nicht zueinander passen.

Host-Header/SNI: Stimmt der Hostname, den der Client sendet, mit den Ingress-Regeln überein?
Path Matching: Prefix vs. Exact vs. Regex (je nach Controller) kann Requests auf unerwartete Backends leiten.
Rewrite/Strip Path: Falsche Rewrites führen zu Upstream-Fehlern, die als 502/504 sichtbar werden (z. B. App wartet auf andere Route).
HTTP/2 und gRPC: Protokoll-Mismatches (HTTP/1.1 Upstream erwartet, HTTP/2 gesendet) können 502 auslösen.
Header/Body Limits: Zu kleine Buffer/Max-Body-Size kann zu Abbrüchen führen; je nach Controller erscheinen sie als 413 oder als 502 bei Upstream-Problemen.

Timeout-Ketten: Warum 504 oft „Mismatch“ bedeutet

In modernen Setups gibt es mehrere Timeouts: Load Balancer Idle Timeout, Ingress Proxy Timeout, Service Mesh Timeout, App-Server Timeout, Datenbank-/Client-Timeout. Wenn diese nicht abgestimmt sind, entstehen schwer erklärbare 504: Ein Layer wartet, während ein anderer bereits abgebrochen hat. Eine pragmatische Regel ist, Timeouts entlang der Kette konsistent zu staffeln (Client am kleinsten, Upstream am größten), damit Abbrüche kontrolliert passieren.

Upstream- und Applikations-Ebene: Der Ingress ist nur der Bote

Viele 502/504 entstehen, weil der Upstream instabil ist: CPU-Sättigung, GC-Pausen, Threadpool-Erschöpfung, DB-Locks, Cache-Misses oder externe Dependencies. Der Ingress macht das sichtbar, aber er ist selten die Root Cause. Deshalb brauchen Sie Applikations- und Dependency-Telemetrie.

Pod-Ressourcen: CPU Throttling, Memory Pressure, OOMKills, hohe Load, zu kleine Worker-Pools.
Dependency-Latenz: Datenbank, Message Broker, externe APIs – ein einzelner langsamer Dependency-Hop kann 504 erzeugen.
Retries und Retry-Stürme: Wenn Clients aggressiv retryn, eskaliert eine kleine Störung zu Überlast – sichtbar als 503/504.
Connection Reuse: Fehlendes Keep-Alive oder fehlendes Pooling erhöht Verbindungsaufbau und begünstigt 502/504.

Beweisführung mit Metriken: Welche Zahlen sofort Klarheit schaffen

Ein gutes Incident-Dashboard trennt schnell zwischen „Ingress kann Upstream nicht erreichen“ und „Upstream antwortet zu langsam“. Dafür genügen oft wenige Kernmetriken, sofern sie sauber instrumentiert sind.

Ingress-Fehler nach Code: 502 vs. 503 vs. 504 getrennt, zusätzlich nach Host/Route/Service.
Upstream Connect Time: Zeit bis TCP/TLS-Verbindung zum Upstream steht (Hinweis auf L4/Endpoint/Policy-Probleme).
Upstream Response Time: Zeit bis erste/volle Response (Hinweis auf App/Dependency-Latenz).
Request Time: Gesamtdauer im Ingress (zeigt Queueing und Timeout-Grenzen).
Endpoint Count: Anzahl Endpoints pro Service über Zeit (erkennt Rollouts/Readiness-Probleme).

Error Rate als Trigger für Priorisierung

Für Alarmierung und Triage ist eine einfache Fehlerquote oft ausreichend. Sie hilft, schnell zu erkennen, ob Sie ein lokales Problem (ein Host/Service) oder einen breiten Ausfall haben.

Fehlerquote = Requests_502 + Requests_503 + Requests_504 Requests_total

Konkrete Debug-Checkliste: 502/503/504 in 15–30 Minuten eingrenzen

Die folgende Checkliste ist bewusst „copy-paste-ready“ und orientiert sich an einem realistischen On-Call-Ablauf. Ziel ist nicht Perfektion, sondern schnelle, belastbare Eingrenzung.

Scope definieren: Betrifft es einen Host, einen Pfad, einen Service oder alle Ingresses?
Trend prüfen: Wann begann der Spike? Korrelation zu Deployments, Config-Changes, Autoscaling, Traffic-Spitzen?
LB-Health prüfen: Sind die Ingress-Backends gesund? Gibt es Änderungen an Health-Checks oder Firewall-Regeln?
Ingress-Pods prüfen: Restarts, OOM, CPU-Saturation, zu wenige Replicas, häufige Reloads?
Ingress-Access/Error-Logs: Upstream-Status, Upstream-Adresse, connect/response time, Timeout-Indikatoren.
Service/Endpoints prüfen: Endpoints vorhanden? Readiness ok? Labels/Selector korrekt?
NetworkPolicy/Security prüfen: Blockiert eine Policy den Traffic zum Upstream-Port?
App-Telemetrie: Latenz, Error Rate, Sättigung (CPU, Threads, DB Pool), Dependency-Latenzen.
Timeout-Kette prüfen: LB Idle Timeout, Ingress Timeout, Mesh Timeout, App Timeout – passt das zusammen?
Reproduzierbarkeit: Testen Sie mit einem einfachen Request vom Cluster aus (Debug-Pod) und von außen, um Pfadunterschiede zu sehen.

Häufige Root Causes nach Fehlercode (schnelle Zuordnung)

Die folgende Zuordnung ist keine Garantie, aber ein zuverlässiger „Geruchssinn“ für die Praxis – insbesondere, wenn Sie sie mit Logs und Metriken abgleichen.

502: Upstream resets, TLS-Mismatch, Protokollinkompatibilität (HTTP/2/gRPC), falscher Upstream-Port, App schließt Verbindung früh, MTU/Fragmentierungsprobleme bei größeren Daten.
503: Keine Endpoints, Upstream als unhealthy markiert, Deploy/Readiness entzieht Backends, Ingress Overload, Rate Limiting/Policy-Block, falsche Service/Ingress-Referenz.
504: Upstream zu langsam (DB/API), Queueing im Ingress, Timeout-Mismatch in der Kette, Ressourcenerschöpfung in App (Threadpool/GC), Retries verstärken Last.

Prävention: Standards, die 502/503/504 dauerhaft reduzieren

Nach dem Incident ist die wichtigste Frage: Wie verhindern Sie Wiederholungen? Ingress-Fehler sind oft „Symptome systemischer Schwächen“. Die effektivsten Maßnahmen sind Standards, die Teams nicht jedes Mal neu erfinden müssen.

Timeout-Policy definieren: Einheitliche Defaults und eine dokumentierte Kette (LB → Ingress → Mesh → App).
Readiness korrekt implementieren: Readiness muss echte Erreichbarkeit und Dependency-Health abbilden, nicht nur „Process lebt“.
Capacity für Ingress planen: HPA/VPA, genügend Replicas, klare Limits für Worker/Connections, Load-Tests vor Peaks.
Deployment-Schutz: PDBs, Rolling-Strategien, Canary/Blue-Green, um Endpoint-Dürre zu verhindern.
Observability-Minimum: Ingress-Metriken (Upstream-Status/Times), Endpoint-Counts, App-Latenz, Dependency-Latenz.
Regressionstests: Ein einfacher synthetischer Test pro kritischem Host/Pfad (intern und extern), der Timeouts/Headers/Body-Größen abdeckt.

Outbound-Links zu relevanten Informationsquellen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.