gRPC-Connection-Behavior: L4-Effekte auf Error Rate und Latenz

gRPC-Connection-Behavior ist ein unterschätzter Hebel für Error Rate und Latenz, weil gRPC nicht nur „HTTP mit Protobuf“ ist, sondern ein langlaufendes, multiplexendes Kommunikationsmodell über HTTP/2 (oder zunehmend auch über HTTP/3/QUIC) nutzt. In Produktion entstehen viele gRPC-Incidents nicht durch „die Applikation“ im engeren Sinne, sondern durch Layer-4-Effekte: TCP-Timeouts, Retransmissions, Paketverlust, NAT-Idle-Timeouts, L4-Load-Balancer-Verhalten, Keepalive-Policies oder Proxy-Ketten. Das…

CIDR-Planung fürs Wachstum: Strategie ohne schmerzhaftes Re-IP

CIDR-Planung fürs Wachstum ist eine der wenigen Cloud-Entscheidungen, die sich später nur mit großem Aufwand korrigieren lassen. Solange eine Umgebung klein ist, wirkt ein knapp gewählter Adressraum oft „gut genug“: ein paar Subnetze, ein NAT-Gateway, ein Cluster, fertig. Mit echter Skalierung kippt diese Komfortzone jedoch schnell. Kubernetes vergrößert den IP-Bedarf durch Pods, Nodes und Services,…

Route-Table-Debugging: Warum Pod/Service nicht aus der VPC kommt

Route-Table-Debugging ist eine der effektivsten Methoden, wenn ein Pod oder Service „einfach nicht aus der VPC kommt“ – also keine externen Ziele erreicht, keine Partnernetze ansprechen kann oder beim Zugriff auf öffentliche APIs ständig Timeouts liefert. In Cloud- und Kubernetes-Umgebungen wirkt das Problem häufig wie ein Security-Thema („Firewall blockt“), ein DNS-Thema („Name wird nicht aufgelöst“)…

Asymmetrisches Routing in der Cloud: Häufige Ursachen und Vermeidung

Asymmetrisches Routing in der Cloud beschreibt ein scheinbar kleines Detail mit großer Wirkung: Hin- und Rückweg eines Netzwerkflusses nehmen unterschiedliche Pfade. Für viele Anwendungen ist das zunächst unsichtbar, weil IP grundsätzlich „best effort“ ist und Pakete nicht garantiert denselben Weg zurück nehmen müssen. In der Praxis wird Asymmetrie jedoch schnell zum Problem, sobald zustandsbehaftete Komponenten…

NAT-Gateway-Bottleneck: Symptome, Telemetrie und Lösungen

Ein NAT-Gateway-Bottleneck ist einer der häufigsten Gründe, warum Cloud-Workloads plötzlich „zufällig“ langsam werden, Timeouts zeigen oder nur noch ein Teil der ausgehenden Verbindungen funktioniert – obwohl Applikation, DNS und Security-Regeln scheinbar unverändert sind. Besonders betroffen sind Plattformen mit vielen kurzlebigen Verbindungen, hoher Parallelität und starkem Egress in Richtung Internet oder SaaS: Kubernetes-Cluster, Microservices mit vielen…

Multi-VPC-Konnektivität: Peering vs. Transit Gateway vs. Hub-and-Spoke

Multi-VPC-Konnektivität ist in modernen Cloud-Organisationen kein Spezialthema mehr, sondern Alltag: getrennte Accounts/Subscriptions, mehrere Umgebungen (Dev/Test/Prod), Plattform- und Produktteams, Compliance-Zonen, Shared Services und zunehmend auch Multi-Region-Designs. Früher oder später entsteht damit die Kernfrage: Wie verbinden wir mehrere VPCs/VNets so, dass Connectivity zuverlässig, sicher, beobachtbar und wirtschaftlich bleibt? Oft startet man mit „einfach mal peeren“, weil VPC…

Layer 2 in der virtuellen Welt: VPC/VNet, Overlay und operative Auswirkungen

Layer 2 in der virtuellen Welt wirkt auf den ersten Blick wie ein Widerspruch: In der Public Cloud sehen Sie keine Switches, keine VLAN-Ports und keine klassischen Broadcast-Domänen. Trotzdem sind viele Eigenschaften, die wir aus Layer 2 kennen – Adressierung, Segmentierung, „gleicher Layer-2-Bereich“ vs. „geroutet“, MTU-Grenzen und die Frage nach Nachbarschaft (Adjacency) – weiterhin operativ…

Anycast und Global Load Balancing: Layer-3-Perspektive für SRE

Anycast und Global Load Balancing gehören zu den wichtigsten Bausteinen, wenn SRE-Teams weltweit verfügbare Dienste mit niedriger Latenz und hoher Resilienz betreiben. In der Praxis wirken beide Konzepte auf den ersten Blick ähnlich: Nutzer werden „automatisch“ zu einem geeigneten Standort geleitet, Ausfälle werden abgefedert, und die Plattform skaliert global. Trotzdem unterscheiden sich Anycast und Global…

ARP/ND in virtuellen Netzwerken: Warum es bei Scale zum Problem wird

ARP/ND in virtuellen Netzwerken wirkt in kleinen Umgebungen unspektakulär: Ein Host fragt nach der MAC-Adresse zu einer IP, erhält eine Antwort, cached das Ergebnis und kann danach Frames zustellen. In Cloud- und Container-Plattformen wird dieses Grundprinzip jedoch schnell zum Skalierungsfaktor – nicht weil ARP (IPv4) oder Neighbor Discovery (ND, IPv6) „falsch“ wären, sondern weil sie…

IPv6 Dual-Stack in der Cloud: Nutzen, Risiken und Betrieb

IPv6 Dual-Stack in der Cloud ist für viele SRE- und Plattformteams der pragmatischste Einstieg in IPv6: Man betreibt IPv4 und IPv6 parallel, sodass Clients und Services je nach Netzwerkumfeld das passende Protokoll nutzen können. Der Reiz ist klar: IPv4-Adressknappheit, NAT-Komplexität und wachsende Multi-VPC-Topologien machen Adressplanung und Konnektivität zunehmend teurer und fehleranfälliger. IPv6 verspricht eine enorme…