HTTP/2 Head-of-Line: Auswirkungen auf Tail Latency und Mitigation

Das Thema HTTP/2 Head-of-Line ist für SREs, Platform- und Backend-Teams besonders relevant, weil es oft genau dort wirkt, wo es am meisten schmerzt: in der Tail Latency (p95/p99/p999). HTTP/2 gilt als moderner Standard, der durch Multiplexing mehrere Requests über eine Verbindung effizienter transportiert als HTTP/1.1. Trotzdem kann es in der Praxis zu spürbaren Latenzspitzen kommen…

L4- vs. L7-Load Balancer: Auswirkungen auf Reliability und Debugging

Der Vergleich L4- vs. L7-Load Balancer ist für Reliability und Debugging weit mehr als eine Architekturfrage. Er entscheidet darüber, welche Fehlerbilder Sie überhaupt sehen können, wie schnell sich Incidents eingrenzen lassen und welche Nebenwirkungen bei Retries, Timeouts oder Traffic-Spitzen auftreten. Auf Layer 4 arbeitet ein Load Balancer nahe am Transport: Er verteilt Verbindungen (TCP/UDP) meist…

Port Exhaustion bei NAT: Der Klassiker bei Traffic-Spikes

Port Exhaustion bei NAT ist ein Klassiker bei Traffic-Spikes, weil das Problem plötzlich, breitflächig und häufig „wie ein zufälliger Netzwerkfehler“ aussieht: Verbindungen nach außen schlagen sporadisch fehl, Timeouts häufen sich, Retries schaukeln die Last hoch, und in Logs tauchen schwer greifbare Fehler wie „connection refused“, „cannot assign requested address“ oder „no route to host“ auf.…

Conntrack-Table voll auf Kubernetes-Nodes: Symptome und Recovery

Wenn die Conntrack-Table voll auf Kubernetes-Nodes läuft, wirkt das in der Praxis wie ein „unsichtbarer“ Netzwerkausfall: Services verlieren sporadisch Verbindungen, DNS wirkt flaky, Outbound-Calls timeouten, und selbst interne Cluster-Kommunikation kann instabil werden. Das Problem trifft Plattform-Teams oft überraschend, weil CPU und Memory der Pods scheinbar in Ordnung sind – und trotzdem steigen Error Rate und…

Layer 5: Session Management – und warum „Sticky“ Resilienz zerstören kann

Layer 5 Session Management wird in modernen Plattformen oft unterschätzt, weil es sich „nach Anwendung“ anfühlt – dabei entscheidet Session-Logik regelmäßig über Verfügbarkeit, Skalierbarkeit und die Qualität Ihrer Incidents. Gerade wenn Load Balancer oder Ingress Controller „sticky“ arbeiten (Session Affinity), kann das kurzfristig bequem sein: Benutzer bleiben auf demselben Backend, Caches wirken schneller, und stateful…

Session Affinity in Kubernetes: Wann nötig – wann vermeiden

Session Affinity in Kubernetes (auch „Sticky Sessions“ oder „Client-IP-Affinity“) klingt zunächst wie eine harmlose Komfortfunktion: Ein Client bleibt bei wiederholten Requests möglichst auf demselben Pod, wodurch serverseitiger Zustand leichter handhabbar wirkt und manche Anwendungen „einfach funktionieren“. In der Praxis ist Session Affinity jedoch eine Architekturentscheidung mit spürbaren Nebenwirkungen auf Resilienz, Skalierung und Debugging. Gerade in…

„Login Loop“-Incident: Session, Cookie oder Load Balancer?

Ein Login Loop-Incident ist einer der frustrierendsten Ausfälle im Betrieb: Nutzer geben korrekte Credentials ein, sehen kurz einen „Erfolg“-Moment – und landen sofort wieder auf der Login-Seite. Manchmal betrifft es nur bestimmte Browser, Regionen oder Nutzergruppen; manchmal ist es global. Der Haken: Ein Login-Loop sieht aus wie „Auth ist kaputt“, kann aber aus ganz unterschiedlichen…

Stateful Dependencies: Risiko durch Stateless Design reduzieren

Stateful Dependencies sind eine der häufigsten, aber am wenigsten sichtbaren Ursachen für Betriebsrisiken in modernen Anwendungen. Gemeint sind Abhängigkeiten, deren korrektes Verhalten davon abhängt, dass ein bestimmter Zustand erhalten bleibt: Sessions im In-Memory-Cache, Verbindungen mit impliziten Kontexten, lokale Dateisysteme, Leader-Election-States, Transaktionen, Locks oder auch nur „warme“ Caches, die bei Neustarts wegfallen. Das Problem: Viele Systeme…

Retry Storm durch Session Drops: Kaskadenfehler verhindern

Ein Retry Storm durch Session Drops ist ein typischer Kaskadenfehler in produktiven Systemen: Eine eigentlich lokal begrenzte Störung (z. B. auslaufende Sessions, Cookie-Probleme, Cache-Reboots oder ein wackeliger Session Store) führt dazu, dass Clients massenhaft erneut anfragen. Diese Retries wirken auf den ersten Blick wie „Hilfsmechanismus“ für Zuverlässigkeit, können aber innerhalb weniger Minuten die gesamte Plattform…

Circuit Breaker vs. Session Persistence: Resilienz-Strategien

Circuit Breaker vs. Session Persistence ist eine Frage, die in der Praxis oft erst dann gestellt wird, wenn ein Incident bereits läuft: Die Anwendung wirkt „instabil“, Nutzer werden ausgeloggt, Requests hängen in Timeouts – und plötzlich prallen zwei Resilienz-Strategien aufeinander. Der Circuit Breaker soll Kaskaden verhindern, indem er bei Fehlern schnell „aufmacht“ und Abhängigkeiten entlastet.…