gRPC-Connection-Behavior: L4-Effekte auf Error Rate und Latenz

gRPC-Connection-Behavior ist ein unterschätzter Hebel für Error Rate und Latenz, weil gRPC nicht nur „HTTP mit Protobuf“ ist, sondern ein langlaufendes, multiplexendes Kommunikationsmodell über HTTP/2 (oder zunehmend auch über HTTP/3/QUIC) nutzt. In Produktion entstehen viele gRPC-Incidents nicht durch „die Applikation“ im engeren Sinne, sondern durch Layer-4-Effekte: TCP-Timeouts, Retransmissions, Paketverlust, NAT-Idle-Timeouts, L4-Load-Balancer-Verhalten, Keepalive-Policies oder Proxy-Ketten. Das…

L4- vs. L7-Load Balancer: Auswirkungen auf Reliability und Debugging

Der Vergleich L4- vs. L7-Load Balancer ist für Reliability und Debugging weit mehr als eine Architekturfrage. Er entscheidet darüber, welche Fehlerbilder Sie überhaupt sehen können, wie schnell sich Incidents eingrenzen lassen und welche Nebenwirkungen bei Retries, Timeouts oder Traffic-Spitzen auftreten. Auf Layer 4 arbeitet ein Load Balancer nahe am Transport: Er verteilt Verbindungen (TCP/UDP) meist…

Port Exhaustion bei NAT: Der Klassiker bei Traffic-Spikes

Port Exhaustion bei NAT ist ein Klassiker bei Traffic-Spikes, weil das Problem plötzlich, breitflächig und häufig „wie ein zufälliger Netzwerkfehler“ aussieht: Verbindungen nach außen schlagen sporadisch fehl, Timeouts häufen sich, Retries schaukeln die Last hoch, und in Logs tauchen schwer greifbare Fehler wie „connection refused“, „cannot assign requested address“ oder „no route to host“ auf.…

Conntrack-Table voll auf Kubernetes-Nodes: Symptome und Recovery

Wenn die Conntrack-Table voll auf Kubernetes-Nodes läuft, wirkt das in der Praxis wie ein „unsichtbarer“ Netzwerkausfall: Services verlieren sporadisch Verbindungen, DNS wirkt flaky, Outbound-Calls timeouten, und selbst interne Cluster-Kommunikation kann instabil werden. Das Problem trifft Plattform-Teams oft überraschend, weil CPU und Memory der Pods scheinbar in Ordnung sind – und trotzdem steigen Error Rate und…

Layer 5: Session Management – und warum „Sticky“ Resilienz zerstören kann

Layer 5 Session Management wird in modernen Plattformen oft unterschätzt, weil es sich „nach Anwendung“ anfühlt – dabei entscheidet Session-Logik regelmäßig über Verfügbarkeit, Skalierbarkeit und die Qualität Ihrer Incidents. Gerade wenn Load Balancer oder Ingress Controller „sticky“ arbeiten (Session Affinity), kann das kurzfristig bequem sein: Benutzer bleiben auf demselben Backend, Caches wirken schneller, und stateful…

Session Affinity in Kubernetes: Wann nötig – wann vermeiden

Session Affinity in Kubernetes (auch „Sticky Sessions“ oder „Client-IP-Affinity“) klingt zunächst wie eine harmlose Komfortfunktion: Ein Client bleibt bei wiederholten Requests möglichst auf demselben Pod, wodurch serverseitiger Zustand leichter handhabbar wirkt und manche Anwendungen „einfach funktionieren“. In der Praxis ist Session Affinity jedoch eine Architekturentscheidung mit spürbaren Nebenwirkungen auf Resilienz, Skalierung und Debugging. Gerade in…

„Login Loop“-Incident: Session, Cookie oder Load Balancer?

Ein Login Loop-Incident ist einer der frustrierendsten Ausfälle im Betrieb: Nutzer geben korrekte Credentials ein, sehen kurz einen „Erfolg“-Moment – und landen sofort wieder auf der Login-Seite. Manchmal betrifft es nur bestimmte Browser, Regionen oder Nutzergruppen; manchmal ist es global. Der Haken: Ein Login-Loop sieht aus wie „Auth ist kaputt“, kann aber aus ganz unterschiedlichen…

Stateful Dependencies: Risiko durch Stateless Design reduzieren

Stateful Dependencies sind eine der häufigsten, aber am wenigsten sichtbaren Ursachen für Betriebsrisiken in modernen Anwendungen. Gemeint sind Abhängigkeiten, deren korrektes Verhalten davon abhängt, dass ein bestimmter Zustand erhalten bleibt: Sessions im In-Memory-Cache, Verbindungen mit impliziten Kontexten, lokale Dateisysteme, Leader-Election-States, Transaktionen, Locks oder auch nur „warme“ Caches, die bei Neustarts wegfallen. Das Problem: Viele Systeme…

VLAN vs. Overlay: Was SREs über moderne Fabrics verstehen müssen

VLAN vs. Overlay ist für SREs mehr als ein Netzwerkthema aus dem Lehrbuch. Moderne Plattformen – ob Kubernetes on-prem, Private Cloud oder Public Cloud – basieren auf Fabrics, die Skalierung, Isolation und Fehlertoleranz über Software und verteilte Steuerungsebenen erreichen. Wer als Site Reliability Engineer Verfügbarkeit, Latenz und Incident-Response verantwortet, muss deshalb verstehen, was klassische VLANs…

BGP in Hybrid Cloud: Was DevOps zwingend verstehen muss

BGP in Hybrid Cloud ist das unsichtbare Rückgrat vieler produktiver Plattformen – und gleichzeitig eine der häufigsten Ursachen für schwer erklärbare Netzwerk- und Applikationsprobleme, sobald On-Premises und Cloud wirklich „zusammenarbeiten“ sollen. In DevOps- und Plattformteams wird Routing oft als „Netzwerk-Thema“ abgestempelt. In der Realität entscheidet BGP (Border Gateway Protocol) darüber, ob Services erreichbar sind, ob…