Load Balancer Troubleshooting: Health Checks, Persistence, SNAT

Red Snapper

2 months ago

Load Balancer Troubleshooting ist in modernen Infrastrukturen eine Kernkompetenz, weil Load Balancer heute weit mehr tun als „Round Robin“: Sie terminieren TLS, steuern Traffic nach Layer-7-Regeln, prüfen Backend-Gesundheit über Health Checks, erzwingen Session-Persistence (Sticky Sessions) und setzen häufig SNAT ein, um Rückwege zu stabilisieren. Genau diese Funktionen sind es aber auch, die zu tückischen Fehlerbildern führen: Der VIP ist erreichbar, aber Nutzer bekommen 502/503; einzelne Sessions „springen“ zwischen Backends; Logins funktionieren nur manchmal; oder nach einem Deployment sind plötzlich nur bestimmte Endpoints kaputt. In vielen Fällen zeigt der Load Balancer „Pool up“, obwohl das Backend in der Realität nicht nutzbar ist – oder umgekehrt wird ein Backend als „down“ markiert, obwohl es eigentlich gesund ist, nur weil Health Checks falsch dimensioniert oder am falschen Pfad angesetzt sind. Auch SNAT wird oft unterschätzt: Ohne SNAT kann asymmetrisches Routing oder ein falsch gesetztes Default Gateway im Backend dazu führen, dass Antworten am Load Balancer vorbei gehen und Sessions stateful scheitern. Dieses Load Balancer Troubleshooting-Thema verlangt daher ein methodisches Vorgehen: Sie müssen Health Checks, Persistence und SNAT als zusammenhängende Beweiskette betrachten, den echten Datenpfad mit konkreten Flows nachweisen und erst dann an Policies drehen. Der folgende Artikel zeigt eine praxiserprobte Vorgehensweise, mit der Sie Störungen schnell eingrenzen und nachhaltig beheben.

Mentales Modell: Control Plane vs. Data Plane beim Load Balancer

Viele Load-Balancer-Störungen wirken wie „die App ist down“, sind aber eigentlich Steuerungsprobleme. Ein hilfreiches Modell ist die Trennung zwischen Control Plane (Entscheidung, wohin Traffic gehen soll) und Data Plane (tatsächlicher Paket-/Request-Fluss).

Control Plane: Health-Check-Ergebnisse, Pool-Mitgliedschaft, Weighting, L7-Routing-Regeln, Persistence-Tabellen, SNAT-Konfiguration.
Data Plane: TCP-Handshakes, TLS-Handshake, HTTP-Requests, Response-Codes, Retransmissions, Drops, MTU/MSS.

Wichtig: Ein „grüner“ Status im Load Balancer sagt oft nur, dass die Control Plane glaubt, alles sei gut. Ob die Data Plane wirklich funktioniert, beweisen Sie immer anhand konkreter Flows (z. B. ein betroffener Nutzer-Request mit Zeitstempel, Source-IP und Ziel-VIP).

Typische Fehlerbilder und was sie wahrscheinlich bedeuten

Schon das Symptom liefert starke Hinweise, ob Health Checks, Persistence oder SNAT im Spiel sind.

503/No healthy upstream: Health Checks sind fehlgeschlagen oder ein Pool ist leer; häufig falscher Check-Pfad, falsche Host-Header, falsche TLS-Policy.
502/Bad Gateway: Load Balancer erreicht Backend, aber Backend antwortet nicht korrekt (RST/Timeout/Invalid HTTP) oder TLS-Handshake zum Backend scheitert.
Login funktioniert sporadisch: Persistence fehlt oder ist falsch; Session-Store ist nicht shared; Cookie/Source-IP-Stickiness passt nicht zum Client-Verhalten.
Einzelne Nutzer betroffen, andere nicht: Hashing/Source-IP-Stickiness, ECMP „schlechter Pfad“, oder ein einzelnes Pool-Member ist degradiert, aber nicht als down erkannt.
Nur große Uploads/Downloads brechen: MTU/MSS/Fragmentation, Proxy-Buffering, Idle-Timeouts, oder zu aggressive L7-Limits.
„Direkt aufs Backend geht, über VIP nicht“: LB-spezifische Header/Host-Header, Health-Check-Policy, WAF/Rate-Limits, SNAT/Return-Path.

Evidence Pack: Was Sie im Incident immer sammeln sollten

Load Balancer Troubleshooting eskaliert schnell, wenn Daten fehlen. Ein kleines, standardisiertes Evidence Pack macht die Ursachen meist innerhalb weniger Minuten sichtbar.

Konkreter Request: URL/Endpoint, Methode, Host-Header, Zeitstempel, Response-Code, Client-IP (inkl. X-Forwarded-For-Kette).
VIP & Pool-Kontext: welcher Virtual Server, welcher Pool, welche Pool-Members, welche Health-Check-Definition.
Persistence-Kontext: Art der Persistence (Cookie, Source-IP, Header), Timeout, ob „fallback“ existiert.
SNAT-Kontext: SNAT an/aus, SNAT-Pool/Adresse, ob Backend Rückverkehr über LB führt.
Timeouts: Client-side TCP/HTTP timeouts, LB idle timeout, backend connect/read timeout.
Logs/Telemetry: LB Access Logs, LB Event Logs (Member up/down), Backend Logs (Ingress sichtbar?), optional PCAP am LB oder Backend.

Health Checks Troubleshooting: „Up“ heißt nicht „gesund“

Health Checks sind die wichtigste Steuergröße im Load Balancer. Ein guter Health Check ist nicht „Ping“, sondern ein minimaler, aber realistischer Beweis, dass das Backend den relevanten Service liefern kann. Zu einfache Checks führen zu False Negatives (Backend ist „up“, aber App kaputt), zu komplexe Checks erzeugen False Positives (Backend wird als „down“ markiert, obwohl es nur ein Randfall ist).

Die häufigsten Health-Check-Fallen

Falscher Pfad: Check ruft / auf, aber die App liefert nur unter /health stabil; oder der Pfad erfordert Auth.
Falscher Host-Header/SNI: Backend ist vhost-basiert; ohne korrekten Host-Header oder TLS SNI liefert es 404/421/Default-Site.
Zu strenge Erfolgsbedingungen: Check erwartet 200, Backend liefert 204/301; oder JSON-Body wird geprüft, aber ein Feld ändert sich dynamisch.
Check trifft falsche Instanz: Bei Anycast/Service-Mesh/Ingress kann der Check nicht das gleiche Backend erreichen wie echte Nutzer.
Zu aggressive Intervalle: Checks laufen zu häufig, erzeugen Lastspitzen, oder führen bei kurzen Hängern zu Flapping.
TLS zum Backend: Zertifikatsprüfung, SNI oder Cipher-Suites passen nicht; Check scheitert, obwohl HTTP ohne TLS funktionieren würde.

Gesunde Check-Designprinzipien

Minimal, aber real: Ein GET auf /health oder /ready, der die wesentlichen Abhängigkeiten abdeckt, ohne „teuer“ zu sein.
Explizite Header: Host-Header und ggf. SNI bewusst setzen, damit der Check wirklich den gleichen vhost trifft wie Produktion.
Graceful Degradation: Erfolgsbedingungen so wählen, dass kurze Transienten nicht sofort ein Member „kicken“.
Separate Liveness/Readiness: Liveness zeigt „Prozess lebt“, Readiness zeigt „kann Traffic annehmen“ (besonders bei Deployments wertvoll).

Wenn Sie tiefer in HTTP-Semantik und Statuscodes einsteigen möchten, ist die Spezifikation HTTP Semantics (RFC 9110) eine gute Referenz.

Health Checks vs. reale User-Journeys: Warum 200 OK nicht reicht

Ein Health Check kann erfolgreich sein, während Nutzer trotzdem Fehler sehen. Das passiert häufig bei abhängigen Systemen (DB, Cache, Identity Provider). Ein Backend kann auf /health 200 liefern, aber bei echten Requests Timeouts produzieren. In solchen Fällen brauchen Sie zwei zusätzliche Bausteine:

Passive Health: Der Load Balancer beobachtet echte Response-Codes/Timeouts und kann ein Member bei Fehlerhäufung isolieren.
Outlier Detection: Ein „schlechtes“ Member wird temporär aus dem Pool genommen, obwohl es Health Checks noch besteht.

Operativ ist das oft der Unterschied zwischen „ein paar Nutzer beschweren sich“ und „Incident eskaliert“. Auch wenn die Feature-Namen vendorabhängig sind, bleibt das Prinzip gleich: Echte Traffic-Signale sind häufig aussagekräftiger als synthetische Checks.

Persistence Troubleshooting: Wenn Sessions „springen“

Persistence (Sticky Sessions) sorgt dafür, dass aufeinanderfolgende Requests eines Clients zum gleichen Backend gehen. Das ist nötig, wenn Ihre Anwendung State lokal auf dem Backend hält (In-Memory Session, lokale Caches ohne Sharing). In idealen Architekturen ist die App stateless und braucht keine Persistence. In der Realität ist Persistence aber häufig und muss korrekt betrieben werden.

Arten von Persistence und ihre Nebenwirkungen

Cookie-based Persistence: Der LB setzt ein Cookie, das das Ziel-Backend identifiziert. Gut für Web, kann aber bei Cross-Domain, SameSite/ITP oder bestimmten API-Clients kompliziert werden.
Source-IP Persistence: Hash auf Client-IP. Funktioniert gut in internen Netzen, scheitert aber bei NAT (viele Clients teilen eine IP) oder bei Mobilfunk/WAN, wo IPs wechseln.
Header-based Persistence: Hash auf einen stabilen Header (z. B. User-ID, API-Key). Mächtig, aber nur, wenn der Header zuverlässig vorhanden ist.
SSL Session ID / TLS affinity: Bindung über TLS-Session-Mechaniken. Kann bei TLS-Termination oder Resumption unterschiedlich wirken.

Typische Persistence-Fehlerbilder

Login ok, nächste Aktion 401/CSRF Fehler: Client landet auf anderem Backend, Session ist dort unbekannt.
Nur bestimmte Browser betroffen: Cookie-Attribute (SameSite, Domain, Path) passen nicht; Browser blockt Cookie.
Mobile Nutzer unzuverlässig: Source-IP ändert sich oder wird durch Carrier-NAT geteilt.
Skalierung bricht: Zu starke Stickiness führt zu ungleichmäßiger Last (Hotspot-Backends), obwohl Round Robin aktiv ist.

Systematisches Debugging von Persistence

Beweis 1: Ist die App wirklich stateful? (Session-Store shared oder lokal?)
Beweis 2: Welche Persistence-Methode ist aktiv, und ist sie kompatibel mit dem Client-Typ (Browser, API, Mobile)?
Beweis 3: Sieht der Client das Persistence-Artefakt (Cookie/Header)? Wird es zurückgesendet?
Beweis 4: Mappt das Artefakt stabil auf das gleiche Backend, auch über Rekonfigurationen/Deployments hinweg?

Health Checks und Persistence: die gefährliche Kombination

Ein Klassiker im Incident: Ein Backend wird durch Health Checks als „down“ markiert, aber viele Clients sind per Persistence daran gebunden. Je nach Implementierung führt das zu harten Fehlern oder zu „stuck sessions“. Umgekehrt kann ein Backend „up“ sein, aber sehr langsam. Dann bleiben Clients sticky auf einem schlechten Member hängen.

Empfehlung: Persistence sollte einen „graceful failover“ haben: Wenn das sticky Member down ist, muss sauber auf ein anderes Member gewechselt werden.
Empfehlung: Health Checks sollten bei Degradierung früh reagieren (z. B. bei hoher Latenz), sonst bleiben Nutzer auf dem schlechten Member.
Empfehlung: Bei Deployments: Draining und Connection Draining/Graceful Shutdown nutzen, damit sticky Sessions auslaufen können.

SNAT Troubleshooting: Return-Path stabilisieren und „mysteriöse“ Timeouts vermeiden

SNAT am Load Balancer sorgt dafür, dass das Backend als Quelladresse die LB-Adresse (oder einen SNAT-Pool) sieht. Dadurch gehen Antworten immer zurück zum Load Balancer, auch wenn das Backend ein anderes Default Gateway hätte. Das kann Stabilität bringen, hat aber Nebenwirkungen: Client-IP geht verloren (oder muss über X-Forwarded-For/PROXY Protocol transportiert werden), und SNAT kann Portressourcen erschöpfen.

Wann SNAT typischerweise nötig ist

Asymmetrisches Routing: Backends antworten über einen anderen Router/Firewall-Pfad als über den LB, wodurch stateful Flows brechen.
Mehrere VLANs/VRFs: Backend-Gateway ist nicht eindeutig oder wird dynamisch verändert (z. B. durch PBR/SD-WAN).
Security-Zonen: Firewalls erwarten Rückverkehr über die gleiche Instanz; SNAT erzwingt Rückweg über LB.

SNAT-Fehlerbilder

Direktzugriff aufs Backend funktioniert, über VIP timeout: Rückweg am LB vorbei (kein SNAT) oder SNAT falsch.
Viele kurze Verbindungen scheitern: SNAT-Portpool erschöpft (Port Exhaustion), besonders bei hoher Parallelität.
Backend sieht nur eine Client-IP: SNAT maskiert Clients; Rate-Limits oder Security-Regeln im Backend greifen falsch.

Port Exhaustion am SNAT-Pool

Wenn SNAT aktiv ist und viele Clients gleichzeitig Verbindungen aufbauen, benötigt der LB genügend Source-Ports auf seinen SNAT-IP(s). Pro SNAT-IP gibt es nur eine begrenzte Portanzahl. Unter hoher Last können Ports knapp werden, was wie „sporadische Netzwerkprobleme“ wirkt.

Indiz: Spikes in 5xx/Timeouts korrelieren mit Traffic-Peaks, während Backends gesund wirken.
Nachweis: LB-Telemetrie zeigt hohe SNAT-Conn-Counts oder explizite „no ports available“-Events (vendorabhängig).
Fix-Richtung: SNAT-Pool vergrößern (mehr IPs), Connection Reuse (HTTP Keep-Alive) fördern, Idle-Timeouts sinnvoll wählen.

Für generelle NAT-Konzepte ist RFC 3022 eine brauchbare Referenz. Auch wenn Load-Balancer-SNAT nicht identisch zu Edge-NAT ist, helfen die Grundbegriffe (Mapping, Portressourcen, State).

Health Checks, Persistence, SNAT im Zusammenspiel: eine Beweiskette

Viele Incidents entstehen nicht durch einen einzelnen Fehler, sondern durch Kombinationen. Ein robustes Troubleshooting fragt deshalb immer:

Health Check: Ist das Backend wirklich gesund für den relevanten User Flow?
Persistence: Kommen Requests eines Users konsistent beim gleichen Backend an, wenn die App das braucht?
SNAT/Return Path: Gehen Antworten zuverlässig zurück über den Load Balancer, sodass Session-State konsistent bleibt?

Wenn Sie diese drei Fragen mit konkreten Nachweisen beantworten, sind 80% der Load-Balancer-Probleme bereits eingegrenzt.

Timeouts: Der unterschätzte Grund für „sporadisch“

Load Balancer bringen meist mehrere Timeout-Ebenen mit: Client-side idle timeout, server-side connect timeout, server-side response timeout, HTTP keep-alive timeout, TLS handshake timeout. Wenn diese Werte nicht zum Applikationsverhalten passen, entstehen schwer reproduzierbare Fehler.

Zu kurzer idle timeout: Langsame Clients oder lange Think-Times brechen Sessions (besonders bei WebSockets oder SSE).
Zu kurzer backend response timeout: Backend ist unter Last langsamer, LB bricht ab und liefert 504/502.
Unstimmige Timeouts zwischen LB und App: App hält Keep-Alive länger als LB, oder umgekehrt; Reuse führt zu RST.

TCP-Grundverhalten (Retransmissions/Timeouts) ist in RFC 9293 beschrieben und hilft, „warum dauert es so lange“ sauber einzuordnen.

MTU/MSS und große Payloads: Wenn nur große Requests brechen

Bei TLS-Termination, Tunneln (IPsec, VXLAN), VLAN-Stacking oder WAN-Links kann die effektive MTU kleiner sein als erwartet. Dann funktionieren kleine Requests, große Uploads oder TLS-Records brechen. Häufig wird das fälschlich als „Backend instabil“ interpretiert.

Indiz: Kleine GETs ok, große POSTs oder Datei-Uploads timeouten; nur über bestimmte Pfade (z. B. VPN) reproduzierbar.
Nachweis: Captures zeigen Fragmentation oder fehlende PMTUD-Signale; Retransmissions steigen bei großen Segmenten.
Fix-Richtung: MTU konsistent planen, MSS-Clamping an passenden Stellen, PMTUD-ICMP nicht blind blocken.

PMTUD-Hintergrund: RFC 1191 (IPv4) und RFC 8201 (IPv6).

Forensik: PCAP und Logs so einsetzen, dass sie wirklich helfen

Load Balancer sitzen „in der Mitte“, daher ist Forensik besonders effektiv, wenn Sie Ingress und Egress getrennt betrachten: Client↔LB und LB↔Backend. Ein kurzer Capture oder detaillierte Access Logs reichen oft, wenn Sie den Flow klar definieren.

Ingress-Sicht: Kommt der Request am LB an? Welche Header bringt er mit (Host, Cookies, Auth)?
Egress-Sicht: Geht der Request zum Backend? Welches Backend? Mit welcher Source-IP (SNAT)?
Response-Sicht: Kommt eine Response zurück? Ist es ein Timeout, ein Reset, ein HTTP-Fehler?

Für Toolpraxis sind die Wireshark Dokumentation und die tcpdump Manpage gute Referenzen, um gezielt nach 5-Tuple, Host-Header oder Response-Codes zu filtern.

Runbook-Baustein: Load Balancer Troubleshooting in 15 Minuten

Minute 0–3: Betroffenen Flow definieren (Request/URL/Host, Zeitstempel, Client-IP). Response-Code und Häufigkeit erfassen. Prüfen, ob Problem alle Nutzer betrifft oder selektiv ist.
Minute 3–6: Health Checks prüfen: Welche Members sind up/down? Passt Check-Pfad/Host/SNI? Gibt es Flapping oder hohe Latenz in Checks?
Minute 6–9: Persistence prüfen: Ist Stickiness aktiv? Sieht der Client das Cookie/Artefakt? Mappt es stabil auf ein Backend? Gibt es „stuck sessions“ auf einem schlechten Member?
Minute 9–12: SNAT/Return Path prüfen: Antwortet Backend über LB? SNAT aktiv? SNAT-Pool/Portressourcen ausreichend? Backends sehen korrekte Client-IP (XFF/PROXY) wenn nötig?
Minute 12–15: Data Plane verifizieren: kurzer Capture oder Logs Client↔LB und LB↔Backend; Timeouts/Resets/MTU-Indizien prüfen. Minimalen Fix anwenden (Check korrigieren, Member drainen, Persistence justieren, SNAT-Pool erweitern) und mit demselben Flow verifizieren.

Hygiene und nachhaltige Stabilisierung: damit Load Balancer „langweilig“ laufen

Health Checks versionieren: Check-Endpoints als Teil des Deployments behandeln; Änderungen an /health sind Breaking Changes.
Readiness statt Ping: Readiness-Checks nutzen, die echte Abhängigkeiten abbilden (DB/Cache), aber minimal bleiben.
Persistence bewusst begrenzen: Nur dort sticky, wo nötig; bevorzugt stateless Apps oder shared Session Stores.
SNAT Governance: SNAT nur, wenn Return-Path sonst nicht stabil ist; SNAT-Pools dimensionieren und Portressourcen monitoren.
Timeouts harmonisieren: LB-Timeouts an App-Profile anpassen (WebSockets, APIs, Uploads), nicht Default überall.
Observability: Dashboards für Member-Health, 4xx/5xx, Backend-Latenz, Connection Errors, SNAT-Portdruck, Persistence-Hit-Rate.

Weiterführende Quellen

RFC 9110 für HTTP-Statuscodes und Semantik (hilfreich bei 502/503/504-Interpretation)
RFC 9293 für TCP-Verhalten (Timeouts, Retransmissions, Keep-Alive-Effekte)
RFC 3022 für NAT-Grundbegriffe (nützlich bei SNAT- und Portressourcen-Debugging)
HAProxy Dokumentation als praxisnahe Referenz für Health Checks, Timeouts und Stickiness-Konzepte
NGINX Dokumentation als Referenz für Upstream-Health, Keepalive und Load-Balancing-Verhalten
Wireshark Dokumentation und tcpdump Manpage für zielgerichtete PCAP-Forensik im Incident

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.