WebSocket/Long Polling: Failure Modes und passende Observability

WebSocket/Long Polling sind zentrale Bausteine für moderne Echtzeit- und Near-Realtime-Anwendungen: Chats, Kollaboration, Börsenkurse, IoT-Dashboards, Support-Widgets oder Benachrichtigungssysteme. Gleichzeitig sind sie im Betrieb deutlich anfälliger als klassische, kurze HTTP-Requests – nicht weil die Technologien „schlecht“ wären, sondern weil sie lange Verbindungen, Zwischenzustände und Timeouts über viele Komponenten hinweg erfordern: Browser, Mobilnetze, Proxies, Load Balancer, CDNs, Service…

Falsches Connection Pooling: Warum es wie ein Netzwerkproblem aussieht

Falsches Connection Pooling ist einer der häufigsten Gründe, warum sich Performance- und Zuverlässigkeitsprobleme „wie ein Netzwerkproblem“ anfühlen – obwohl die Root Cause in der Applikation liegt. In Microservices-Umgebungen mit HTTP(S), gRPC oder Datenbanktreibern hängt die wahrgenommene Stabilität stark davon ab, wie Verbindungen aufgebaut, wiederverwendet, begrenzt und beendet werden. Wenn Pools falsch dimensioniert sind, Keep-Alive nicht…

Redis-Session-Store-Outage auf OSI mappen: Nicht falsch diagnostizieren

Ein Redis-Session-Store-Outage auf OSI mappen klingt zunächst nach „Netzwerk oder Redis ist down“ – und genau darin liegt die häufigste Falle: Viele Teams diagnostizieren zu früh auf der falschen Ebene. Wenn Nutzer plötzlich ausgeloggt werden, Login-Schleifen auftreten, APIs vermehrt 500er liefern oder die Latenz explodiert, wirkt das schnell wie ein allgemeines Infrastrukturproblem. In Wirklichkeit ist…

Idle Timeout vs. Keepalive: „Random Disconnects“ in Produktion vermeiden

Idle Timeout vs. Keepalive ist eines der häufigsten, aber am wenigsten sauber verstandenen Themen, wenn in Produktion „random disconnects“ auftreten: Verbindungen brechen scheinbar ohne Muster ab, einzelne Requests schlagen sporadisch fehl, gRPC-Streams sterben, WebSocket-Sessions resetten, oder Datenbank-Connections liefern plötzlich „broken pipe“ beziehungsweise „connection reset by peer“. Das führt in Incident-Triage oft zu falschen Verdächtigungen: „Netzwerk…

Auth Session vs. Network Session: Ähnliche Symptome sauber trennen

Auth Session vs. Network Session – beide Begriffe enthalten „Session“, beide können sich in Produktion mit sehr ähnlichen Symptomen melden, und genau deshalb werden Incidents häufig falsch eingeordnet. Nutzer werden ausgeloggt, Requests schlagen sporadisch fehl, WebSockets trennen sich „random“, APIs liefern 401/403 oder 5xx, die Latenz steigt, und im War-Room beginnt das Ping-Pong: „Auth ist…

MTU-Mismatch in Tunnels/VPN: Ursache für „Works on Small Payloads“

MTU-Mismatch in Tunnels/VPN ist eine der klassischsten Ursachen für das irritierende Produktionssymptom „Works on Small Payloads“: Kleine Requests funktionieren zuverlässig, aber größere Antworten hängen, brechen sporadisch ab oder werden extrem langsam. In Incident-Triage wirkt das oft wie ein zufälliges Netzwerkproblem – mal geht es, mal nicht – und genau deshalb kostet es Teams viel Zeit.…

QUIC/HTTP3: Was ändert sich für Observability auf Layer 4?

QUIC/HTTP3: Was ändert sich für Observability auf Layer 4? Diese Frage taucht spätestens dann auf, wenn klassische Netzwerk-Dashboards plötzlich „blind“ wirken: Keine TCP-Flags, keine SYN/ACK-Metriken, keine Retransmissions nach bekannter Logik – und trotzdem klagen Nutzer über höhere Tail Latency oder „sporadische“ Timeouts. QUIC (Transport über UDP) und HTTP/3 (Anwendungsschicht über QUIC) verschieben zentrale Diagnosepunkte: Ein…

gRPC-Connection-Behavior: L4-Effekte auf Error Rate und Latenz

gRPC-Connection-Behavior ist ein unterschätzter Hebel für Error Rate und Latenz, weil gRPC nicht nur „HTTP mit Protobuf“ ist, sondern ein langlaufendes, multiplexendes Kommunikationsmodell über HTTP/2 (oder zunehmend auch über HTTP/3/QUIC) nutzt. In Produktion entstehen viele gRPC-Incidents nicht durch „die Applikation“ im engeren Sinne, sondern durch Layer-4-Effekte: TCP-Timeouts, Retransmissions, Paketverlust, NAT-Idle-Timeouts, L4-Load-Balancer-Verhalten, Keepalive-Policies oder Proxy-Ketten. Das…

CIDR-Planung fürs Wachstum: Strategie ohne schmerzhaftes Re-IP

CIDR-Planung fürs Wachstum ist eine der wenigen Cloud-Entscheidungen, die sich später nur mit großem Aufwand korrigieren lassen. Solange eine Umgebung klein ist, wirkt ein knapp gewählter Adressraum oft „gut genug“: ein paar Subnetze, ein NAT-Gateway, ein Cluster, fertig. Mit echter Skalierung kippt diese Komfortzone jedoch schnell. Kubernetes vergrößert den IP-Bedarf durch Pods, Nodes und Services,…

Route-Table-Debugging: Warum Pod/Service nicht aus der VPC kommt

Route-Table-Debugging ist eine der effektivsten Methoden, wenn ein Pod oder Service „einfach nicht aus der VPC kommt“ – also keine externen Ziele erreicht, keine Partnernetze ansprechen kann oder beim Zugriff auf öffentliche APIs ständig Timeouts liefert. In Cloud- und Kubernetes-Umgebungen wirkt das Problem häufig wie ein Security-Thema („Firewall blockt“), ein DNS-Thema („Name wird nicht aufgelöst“)…