Idle Timeout vs. Keepalive: „Random Disconnects“ in Produktion vermeiden

Idle Timeout vs. Keepalive ist eines der häufigsten, aber am wenigsten sauber verstandenen Themen, wenn in Produktion „random disconnects“ auftreten: Verbindungen brechen scheinbar ohne Muster ab, einzelne Requests schlagen sporadisch fehl, gRPC-Streams sterben, WebSocket-Sessions resetten, oder Datenbank-Connections liefern plötzlich „broken pipe“ beziehungsweise „connection reset by peer“. Das führt in Incident-Triage oft zu falschen Verdächtigungen: „Netzwerk…

Auth Session vs. Network Session: Ähnliche Symptome sauber trennen

Auth Session vs. Network Session – beide Begriffe enthalten „Session“, beide können sich in Produktion mit sehr ähnlichen Symptomen melden, und genau deshalb werden Incidents häufig falsch eingeordnet. Nutzer werden ausgeloggt, Requests schlagen sporadisch fehl, WebSockets trennen sich „random“, APIs liefern 401/403 oder 5xx, die Latenz steigt, und im War-Room beginnt das Ping-Pong: „Auth ist…

MTU-Mismatch in Tunnels/VPN: Ursache für „Works on Small Payloads“

MTU-Mismatch in Tunnels/VPN ist eine der klassischsten Ursachen für das irritierende Produktionssymptom „Works on Small Payloads“: Kleine Requests funktionieren zuverlässig, aber größere Antworten hängen, brechen sporadisch ab oder werden extrem langsam. In Incident-Triage wirkt das oft wie ein zufälliges Netzwerkproblem – mal geht es, mal nicht – und genau deshalb kostet es Teams viel Zeit.…

QUIC/HTTP3: Was ändert sich für Observability auf Layer 4?

QUIC/HTTP3: Was ändert sich für Observability auf Layer 4? Diese Frage taucht spätestens dann auf, wenn klassische Netzwerk-Dashboards plötzlich „blind“ wirken: Keine TCP-Flags, keine SYN/ACK-Metriken, keine Retransmissions nach bekannter Logik – und trotzdem klagen Nutzer über höhere Tail Latency oder „sporadische“ Timeouts. QUIC (Transport über UDP) und HTTP/3 (Anwendungsschicht über QUIC) verschieben zentrale Diagnosepunkte: Ein…

gRPC-Connection-Behavior: L4-Effekte auf Error Rate und Latenz

gRPC-Connection-Behavior ist ein unterschätzter Hebel für Error Rate und Latenz, weil gRPC nicht nur „HTTP mit Protobuf“ ist, sondern ein langlaufendes, multiplexendes Kommunikationsmodell über HTTP/2 (oder zunehmend auch über HTTP/3/QUIC) nutzt. In Produktion entstehen viele gRPC-Incidents nicht durch „die Applikation“ im engeren Sinne, sondern durch Layer-4-Effekte: TCP-Timeouts, Retransmissions, Paketverlust, NAT-Idle-Timeouts, L4-Load-Balancer-Verhalten, Keepalive-Policies oder Proxy-Ketten. Das…

CIDR-Planung fürs Wachstum: Strategie ohne schmerzhaftes Re-IP

CIDR-Planung fürs Wachstum ist eine der wenigen Cloud-Entscheidungen, die sich später nur mit großem Aufwand korrigieren lassen. Solange eine Umgebung klein ist, wirkt ein knapp gewählter Adressraum oft „gut genug“: ein paar Subnetze, ein NAT-Gateway, ein Cluster, fertig. Mit echter Skalierung kippt diese Komfortzone jedoch schnell. Kubernetes vergrößert den IP-Bedarf durch Pods, Nodes und Services,…

Route-Table-Debugging: Warum Pod/Service nicht aus der VPC kommt

Route-Table-Debugging ist eine der effektivsten Methoden, wenn ein Pod oder Service „einfach nicht aus der VPC kommt“ – also keine externen Ziele erreicht, keine Partnernetze ansprechen kann oder beim Zugriff auf öffentliche APIs ständig Timeouts liefert. In Cloud- und Kubernetes-Umgebungen wirkt das Problem häufig wie ein Security-Thema („Firewall blockt“), ein DNS-Thema („Name wird nicht aufgelöst“)…

Asymmetrisches Routing in der Cloud: Häufige Ursachen und Vermeidung

Asymmetrisches Routing in der Cloud beschreibt ein scheinbar kleines Detail mit großer Wirkung: Hin- und Rückweg eines Netzwerkflusses nehmen unterschiedliche Pfade. Für viele Anwendungen ist das zunächst unsichtbar, weil IP grundsätzlich „best effort“ ist und Pakete nicht garantiert denselben Weg zurück nehmen müssen. In der Praxis wird Asymmetrie jedoch schnell zum Problem, sobald zustandsbehaftete Komponenten…

NAT-Gateway-Bottleneck: Symptome, Telemetrie und Lösungen

Ein NAT-Gateway-Bottleneck ist einer der häufigsten Gründe, warum Cloud-Workloads plötzlich „zufällig“ langsam werden, Timeouts zeigen oder nur noch ein Teil der ausgehenden Verbindungen funktioniert – obwohl Applikation, DNS und Security-Regeln scheinbar unverändert sind. Besonders betroffen sind Plattformen mit vielen kurzlebigen Verbindungen, hoher Parallelität und starkem Egress in Richtung Internet oder SaaS: Kubernetes-Cluster, Microservices mit vielen…

Multi-VPC-Konnektivität: Peering vs. Transit Gateway vs. Hub-and-Spoke

Multi-VPC-Konnektivität ist in modernen Cloud-Organisationen kein Spezialthema mehr, sondern Alltag: getrennte Accounts/Subscriptions, mehrere Umgebungen (Dev/Test/Prod), Plattform- und Produktteams, Compliance-Zonen, Shared Services und zunehmend auch Multi-Region-Designs. Früher oder später entsteht damit die Kernfrage: Wie verbinden wir mehrere VPCs/VNets so, dass Connectivity zuverlässig, sicher, beobachtbar und wirtschaftlich bleibt? Oft startet man mit „einfach mal peeren“, weil VPC…