Route-Table-Debugging: Warum Pod/Service nicht aus der VPC kommt

Route-Table-Debugging ist eine der effektivsten Methoden, wenn ein Pod oder Service „einfach nicht aus der VPC kommt“ – also keine externen Ziele erreicht, keine Partnernetze ansprechen kann oder beim Zugriff auf öffentliche APIs ständig Timeouts liefert. In Cloud- und Kubernetes-Umgebungen wirkt das Problem häufig wie ein Security-Thema („Firewall blockt“), ein DNS-Thema („Name wird nicht aufgelöst“)…

Asymmetrisches Routing in der Cloud: Häufige Ursachen und Vermeidung

Asymmetrisches Routing in der Cloud beschreibt ein scheinbar kleines Detail mit großer Wirkung: Hin- und Rückweg eines Netzwerkflusses nehmen unterschiedliche Pfade. Für viele Anwendungen ist das zunächst unsichtbar, weil IP grundsätzlich „best effort“ ist und Pakete nicht garantiert denselben Weg zurück nehmen müssen. In der Praxis wird Asymmetrie jedoch schnell zum Problem, sobald zustandsbehaftete Komponenten…

NAT-Gateway-Bottleneck: Symptome, Telemetrie und Lösungen

Ein NAT-Gateway-Bottleneck ist einer der häufigsten Gründe, warum Cloud-Workloads plötzlich „zufällig“ langsam werden, Timeouts zeigen oder nur noch ein Teil der ausgehenden Verbindungen funktioniert – obwohl Applikation, DNS und Security-Regeln scheinbar unverändert sind. Besonders betroffen sind Plattformen mit vielen kurzlebigen Verbindungen, hoher Parallelität und starkem Egress in Richtung Internet oder SaaS: Kubernetes-Cluster, Microservices mit vielen…

Multi-VPC-Konnektivität: Peering vs. Transit Gateway vs. Hub-and-Spoke

Multi-VPC-Konnektivität ist in modernen Cloud-Organisationen kein Spezialthema mehr, sondern Alltag: getrennte Accounts/Subscriptions, mehrere Umgebungen (Dev/Test/Prod), Plattform- und Produktteams, Compliance-Zonen, Shared Services und zunehmend auch Multi-Region-Designs. Früher oder später entsteht damit die Kernfrage: Wie verbinden wir mehrere VPCs/VNets so, dass Connectivity zuverlässig, sicher, beobachtbar und wirtschaftlich bleibt? Oft startet man mit „einfach mal peeren“, weil VPC…

Layer 2 in der virtuellen Welt: VPC/VNet, Overlay und operative Auswirkungen

Layer 2 in der virtuellen Welt wirkt auf den ersten Blick wie ein Widerspruch: In der Public Cloud sehen Sie keine Switches, keine VLAN-Ports und keine klassischen Broadcast-Domänen. Trotzdem sind viele Eigenschaften, die wir aus Layer 2 kennen – Adressierung, Segmentierung, „gleicher Layer-2-Bereich“ vs. „geroutet“, MTU-Grenzen und die Frage nach Nachbarschaft (Adjacency) – weiterhin operativ…

Anycast und Global Load Balancing: Layer-3-Perspektive für SRE

Anycast und Global Load Balancing gehören zu den wichtigsten Bausteinen, wenn SRE-Teams weltweit verfügbare Dienste mit niedriger Latenz und hoher Resilienz betreiben. In der Praxis wirken beide Konzepte auf den ersten Blick ähnlich: Nutzer werden „automatisch“ zu einem geeigneten Standort geleitet, Ausfälle werden abgefedert, und die Plattform skaliert global. Trotzdem unterscheiden sich Anycast und Global…

ARP/ND in virtuellen Netzwerken: Warum es bei Scale zum Problem wird

ARP/ND in virtuellen Netzwerken wirkt in kleinen Umgebungen unspektakulär: Ein Host fragt nach der MAC-Adresse zu einer IP, erhält eine Antwort, cached das Ergebnis und kann danach Frames zustellen. In Cloud- und Container-Plattformen wird dieses Grundprinzip jedoch schnell zum Skalierungsfaktor – nicht weil ARP (IPv4) oder Neighbor Discovery (ND, IPv6) „falsch“ wären, sondern weil sie…

IPv6 Dual-Stack in der Cloud: Nutzen, Risiken und Betrieb

IPv6 Dual-Stack in der Cloud ist für viele SRE- und Plattformteams der pragmatischste Einstieg in IPv6: Man betreibt IPv4 und IPv6 parallel, sodass Clients und Services je nach Netzwerkumfeld das passende Protokoll nutzen können. Der Reiz ist klar: IPv4-Adressknappheit, NAT-Komplexität und wachsende Multi-VPC-Topologien machen Adressplanung und Konnektivität zunehmend teurer und fehleranfälliger. IPv6 verspricht eine enorme…

Networking-SLOs für Anwendungen: Realistische Ziele pro Layer designen

Networking-SLOs für Anwendungen sind ein entscheidender Schritt, um Performance- und Verfügbarkeitsziele realistisch zu definieren – ohne das Netzwerk pauschal zum Sündenbock zu machen oder Anwendungen mit unerreichbaren Erwartungen zu überfrachten. In der Praxis scheitern viele SLO-Initiativen daran, dass „Latenz“ und „Erreichbarkeit“ nur auf Anwendungsebene betrachtet werden. Dabei entstehen Nutzererlebnisse entlang einer Kette aus Namensauflösung, Verbindungsaufbau,…

Incident-Taxonomie in PagerDuty/Jira mit OSI-Layern erstellen

Eine Incident-Taxonomie in PagerDuty/Jira mit OSI-Layern zu erstellen, ist eine der wirkungsvollsten Maßnahmen, um Incident-Management messbar zu verbessern: weniger Diskussionen über Zuständigkeiten, schnellere Triage, bessere Trends und deutlich wertvollere Postmortems. In vielen Teams werden Incidents in PagerDuty und Jira zwar dokumentiert, aber inkonsistent klassifiziert – mal nach Symptom („Latenz hoch“), mal nach betroffener Komponente („Datenbank“),…