Asymmetrisches Routing in der Cloud: Häufige Ursachen und Vermeidung

Asymmetrisches Routing in der Cloud beschreibt ein scheinbar kleines Detail mit großer Wirkung: Hin- und Rückweg eines Netzwerkflusses nehmen unterschiedliche Pfade. Für viele Anwendungen ist das zunächst unsichtbar, weil IP grundsätzlich „best effort“ ist und Pakete nicht garantiert denselben Weg zurück nehmen müssen. In der Praxis wird Asymmetrie jedoch schnell zum Problem, sobald zustandsbehaftete Komponenten…

NAT-Gateway-Bottleneck: Symptome, Telemetrie und Lösungen

Ein NAT-Gateway-Bottleneck ist einer der häufigsten Gründe, warum Cloud-Workloads plötzlich „zufällig“ langsam werden, Timeouts zeigen oder nur noch ein Teil der ausgehenden Verbindungen funktioniert – obwohl Applikation, DNS und Security-Regeln scheinbar unverändert sind. Besonders betroffen sind Plattformen mit vielen kurzlebigen Verbindungen, hoher Parallelität und starkem Egress in Richtung Internet oder SaaS: Kubernetes-Cluster, Microservices mit vielen…

Multi-VPC-Konnektivität: Peering vs. Transit Gateway vs. Hub-and-Spoke

Multi-VPC-Konnektivität ist in modernen Cloud-Organisationen kein Spezialthema mehr, sondern Alltag: getrennte Accounts/Subscriptions, mehrere Umgebungen (Dev/Test/Prod), Plattform- und Produktteams, Compliance-Zonen, Shared Services und zunehmend auch Multi-Region-Designs. Früher oder später entsteht damit die Kernfrage: Wie verbinden wir mehrere VPCs/VNets so, dass Connectivity zuverlässig, sicher, beobachtbar und wirtschaftlich bleibt? Oft startet man mit „einfach mal peeren“, weil VPC…

Layer 2 in der virtuellen Welt: VPC/VNet, Overlay und operative Auswirkungen

Layer 2 in der virtuellen Welt wirkt auf den ersten Blick wie ein Widerspruch: In der Public Cloud sehen Sie keine Switches, keine VLAN-Ports und keine klassischen Broadcast-Domänen. Trotzdem sind viele Eigenschaften, die wir aus Layer 2 kennen – Adressierung, Segmentierung, „gleicher Layer-2-Bereich“ vs. „geroutet“, MTU-Grenzen und die Frage nach Nachbarschaft (Adjacency) – weiterhin operativ…

Anycast und Global Load Balancing: Layer-3-Perspektive für SRE

Anycast und Global Load Balancing gehören zu den wichtigsten Bausteinen, wenn SRE-Teams weltweit verfügbare Dienste mit niedriger Latenz und hoher Resilienz betreiben. In der Praxis wirken beide Konzepte auf den ersten Blick ähnlich: Nutzer werden „automatisch“ zu einem geeigneten Standort geleitet, Ausfälle werden abgefedert, und die Plattform skaliert global. Trotzdem unterscheiden sich Anycast und Global…

ARP/ND in virtuellen Netzwerken: Warum es bei Scale zum Problem wird

ARP/ND in virtuellen Netzwerken wirkt in kleinen Umgebungen unspektakulär: Ein Host fragt nach der MAC-Adresse zu einer IP, erhält eine Antwort, cached das Ergebnis und kann danach Frames zustellen. In Cloud- und Container-Plattformen wird dieses Grundprinzip jedoch schnell zum Skalierungsfaktor – nicht weil ARP (IPv4) oder Neighbor Discovery (ND, IPv6) „falsch“ wären, sondern weil sie…

IPv6 Dual-Stack in der Cloud: Nutzen, Risiken und Betrieb

IPv6 Dual-Stack in der Cloud ist für viele SRE- und Plattformteams der pragmatischste Einstieg in IPv6: Man betreibt IPv4 und IPv6 parallel, sodass Clients und Services je nach Netzwerkumfeld das passende Protokoll nutzen können. Der Reiz ist klar: IPv4-Adressknappheit, NAT-Komplexität und wachsende Multi-VPC-Topologien machen Adressplanung und Konnektivität zunehmend teurer und fehleranfälliger. IPv6 verspricht eine enorme…

VLAN vs. Overlay: Was SREs über moderne Fabrics verstehen müssen

VLAN vs. Overlay ist für SREs mehr als ein Netzwerkthema aus dem Lehrbuch. Moderne Plattformen – ob Kubernetes on-prem, Private Cloud oder Public Cloud – basieren auf Fabrics, die Skalierung, Isolation und Fehlertoleranz über Software und verteilte Steuerungsebenen erreichen. Wer als Site Reliability Engineer Verfügbarkeit, Latenz und Incident-Response verantwortet, muss deshalb verstehen, was klassische VLANs…

BGP in Hybrid Cloud: Was DevOps zwingend verstehen muss

BGP in Hybrid Cloud ist das unsichtbare Rückgrat vieler produktiver Plattformen – und gleichzeitig eine der häufigsten Ursachen für schwer erklärbare Netzwerk- und Applikationsprobleme, sobald On-Premises und Cloud wirklich „zusammenarbeiten“ sollen. In DevOps- und Plattformteams wird Routing oft als „Netzwerk-Thema“ abgestempelt. In der Realität entscheidet BGP (Border Gateway Protocol) darüber, ob Services erreichbar sind, ob…

EVPN/VXLAN im Data Center: Relevanz für Platform Engineers

EVPN/VXLAN im Data Center ist längst kein reines „Netzwerkthema“ mehr, sondern ein praktisches Fundament für moderne Plattformen. Wer als Platform Engineer Kubernetes-Cluster betreibt, Bare-Metal-Workloads integriert, Private-Cloud-Services bereitstellt oder hybride Architekturen zwischen On-Premises und Public Cloud verantwortet, trifft früher oder später auf EVPN und VXLAN – auch wenn keine Switch-CLI zum Alltag gehört. Der Grund ist…