PrivateLink/Private Endpoint: Funktionsweise, Vorteile und Failure Modes

PrivateLink/Private Endpoint ist in vielen Cloud-Architekturen der bevorzugte Weg, um Plattformdienste und SaaS-APIs privat erreichbar zu machen – ohne öffentliches Internet, ohne öffentliche IPs und häufig mit deutlich besserer Kontrollierbarkeit. Hinter dem Begriff verbergen sich je nach Cloud-Anbieter unterschiedliche Produkte (AWS PrivateLink, Azure Private Link/Private Endpoint, Google Cloud Private Service Connect), das Grundprinzip ist jedoch…

Kubernetes Networking für Einsteiger: Pod, Service, Ingress (Grafik + OSI-Mapping)

Kubernetes Networking wirkt auf Einsteiger oft wie ein „magischer“ Bereich: Pods bekommen IPs, Services verteilen Traffic, und ein Ingress bringt alles nach außen – scheinbar ohne dass man klassische Netzwerkgeräte sieht. Genau deshalb ist Kubernetes Networking so wichtig zu verstehen: In einem Cluster entstehen mehrere virtuelle Netzebenen übereinander, und jedes Problem (Timeouts, 502, „Service nicht…

VPC Peering vs. Transit Gateway vs. Hub-and-Spoke: Was passt am besten?

Die Entscheidung „VPC Peering vs. Transit Gateway vs. Hub-and-Spoke“ gehört zu den wichtigsten Architekturfragen im Cloud Networking, weil sie langfristig Kosten, Sicherheit, Betriebsaufwand und Fehlertoleranz prägt. Viele Teams starten klein mit ein oder zwei VPCs/VNets und verbinden diese direkt per Peering. Später kommen neue Umgebungen (Prod/Stage/Dev), neue Regionen, Shared Services (Observability, CI/CD, Artifact Repos), hybride…

Pod hat kein Internet: Troubleshooting (vollständiges Runbook)

Wenn ein Pod hat kein Internet-Problem in Kubernetes auftritt, wirkt das oft wie ein einzelner Fehler („curl funktioniert nicht“). In der Praxis steckt dahinter jedoch fast immer eine Kette aus Abhängigkeiten: DNS-Auflösung (CoreDNS), Netzwerkpfade im Cluster (CNI), egress-spezifische Policies (NetworkPolicy), Node- oder Cloud-Firewalls (Security Groups/NSGs, NACLs), NAT-Gateways oder Proxy-Vorgaben. Genau deshalb lohnt sich ein vollständiges,…

Split-Horizon DNS in der Cloud: Konzept, Setup und Troubleshooting

Split-Horizon DNS in der Cloud beschreibt ein DNS-Design, bei dem derselbe Domainname je nach Abfragequelle unterschiedliche Antworten liefert. Ein interner Client (z. B. Workload in einer VPC/VNet) erhält private IPs oder private Endpoints, während ein externer Client (z. B. aus dem Internet oder aus einem Partnernetz) öffentliche IPs oder andere Ziele sieht. Dieses Konzept ist…

NetworkPolicy greift nicht? Debug Step-by-Step (Calico/Cilium etc.)

Wenn eine NetworkPolicy greift nicht-Situation in Kubernetes auftritt, ist das fast immer frustrierend: Sie haben eine Policy definiert, erwarten „Default Deny“ oder gezielte Freigaben – und trotzdem fließt Traffic scheinbar unbegrenzt weiter. In der Praxis liegt das selten daran, dass Kubernetes „NetworkPolicies ignoriert“, sondern daran, dass eine von mehreren Voraussetzungen nicht erfüllt ist: Das CNI-Plugin…

Warum „Security Group ist korrekt“, aber Traffic droppt? (Debug-Checkliste)

„Security Group ist korrekt, aber Traffic droppt“ ist eines der häufigsten und frustrierendsten Troubleshooting-Szenarien in Cloud-Netzwerken. Die Security Group (SG) ist in AWS zwar ein zentraler Control Point, aber sie ist selten der einzige. Selbst wenn Inbound- und Outbound-Regeln auf den ersten Blick stimmen, kann der Datenpfad an vielen anderen Stellen scheitern: falsche Route, falsches…

Asymmetrisches Routing in der Cloud: Häufige Ursachen + Detection

Asymmetrisches Routing in der Cloud bezeichnet eine Situation, in der Hin- und Rückweg eines Netzwerkflusses unterschiedliche Pfade nehmen. Der Client sendet Pakete über Route A, die Antwort des Servers kommt jedoch über Route B zurück – häufig über eine andere Firewall, ein anderes Gateway, eine andere Zone oder sogar eine andere Verbindung (VPN/Direct Connect). In…

Intermittierende Issues in Produktion: Evidence sammeln ohne PCAP

Intermittierende Issues in Produktion sind für SRE, SecOps und Plattformteams besonders frustrierend: Der Fehler tritt kurz auf, verschwindet wieder und hinterlässt kaum verwertbare Spuren. Genau in diesen Situationen lautet die Standardfrage im War Room: „Haben wir einen PCAP?“ – und ebenso häufig ist die Antwort: „Nein, aus Datenschutz-, Performance- oder Betriebsgründen nicht.“ Die gute Nachricht:…

RCA/Postmortem für network-related Incidents: Template + Beispiel-Action-Items

Ein gutes RCA/Postmortem für network-related Incidents ist mehr als eine nachträgliche Fehlerbeschreibung: Es ist ein belastbares Arbeitsdokument, das Ursachen, Ketteneffekte und organisatorische Lücken so klar macht, dass daraus konkrete, nachprüfbare Verbesserungen entstehen. Gerade bei Netzwerkvorfällen ist das anspruchsvoll, weil Symptome häufig „unscharf“ wirken („Timeouts“, „Packet Loss“, „App langsam“), Ursachen über mehrere Schichten verteilt sind und…