Pod Egress: NAT, Masquerade und die Effekte

Pod Egress: NAT, Masquerade und die Effekte ist ein zentrales Thema in Kubernetes, weil ausgehender Traffic fast immer über Mechanismen läuft, die im Alltag unsichtbar sind – bis sie Probleme machen. Viele Teams fokussieren auf Ingress, Services und NetworkPolicies, übersehen aber, dass nahezu jede Anwendung auch „nach außen“ kommuniziert: Container Images ziehen, externe APIs aufrufen,…

HPA + Connection Pool: Warum Scale-out Errors erhöhen kann

HPA + Connection Pool: Warum Scale-out Errors erhöhen kann – dieses Problem begegnet vielen Teams erst dann, wenn sie „eigentlich alles richtig“ gemacht haben: CPU steigt, der Horizontal Pod Autoscaler (HPA) skaliert sauber nach oben, mehr Pods laufen, aber statt stabilerer Systeme steigen Fehlerraten, Timeouts und Datenbankprobleme. Typische Symptome sind „too many connections“, sporadische 5xx,…

Packet Capture auf Nodes: Sicher in Produktion

Packet Capture auf Nodes: Sicher in Produktion ist eine Fähigkeit, die in Kubernetes- und Cloud-Umgebungen enorm wertvoll ist – und gleichzeitig schnell riskant werden kann, wenn man sie ohne klare Leitplanken einsetzt. Sobald Sie auf Node-Ebene Pakete mitschneiden, sehen Sie nicht nur „Ihre“ Anwendung, sondern potenziell auch Traffic anderer Workloads, Systemkomponenten oder sensibler Dienste. Genau…

„Image Pull Timeout“ debuggen: Network oder Registry?

„Image Pull Timeout“ debuggen: Network oder Registry? – diese Frage stellt sich in Kubernetes-Clustern häufig genau dann, wenn der Druck am größten ist: Ein Rollout hängt, Pods bleiben in ImagePullBackOff oder ErrImagePull, neue Nodes können keine Workloads starten, und plötzlich wirkt der ganze Cluster „kaputt“. Der Fehlertext ist dabei selten eindeutig, weil ein Timeout beim…

Load-Balancer-Service: L4-Verhalten und Idle Timeout

Load-Balancer-Service: L4-Verhalten und Idle Timeout ist eines der Themen, die in Kubernetes erstaunlich oft zu „komischen“ Produktionsfehlern führen: Verbindungen brechen nach exakt ähnlichen Zeiträumen ab, WebSockets oder gRPC-Streams werden still getrennt, Datenbank-Sessions wirken instabil, oder Long-Polling endet plötzlich mit Timeouts – obwohl CPU, Memory und Pod-Logs zunächst unauffällig sind. Der Grund ist meist nicht der…

BGP-CNI (Calico etc.): Häufige Failure Modes

BGP-CNI (Calico etc.): Häufige Failure Modes ist ein Thema, das in Kubernetes-Umgebungen oft erst dann Aufmerksamkeit bekommt, wenn „plötzlich“ Pod-to-Pod-Verbindungen abbrechen, einzelne Nodes isoliert wirken oder externe Systeme nur noch sporadisch Pod-Netze erreichen. Der Grund: Ein BGP-basiertes CNI ersetzt klassische Overlay-Mechanismen (oder ergänzt sie) durch dynamisches Routing. Statt Pakete über VXLAN/IP-in-IP zu kapseln, werden Pod-…

Multi-Cluster-Networking: Latenz und Failure Domains

Multi-Cluster-Networking: Latenz und Failure Domains ist in modernen Plattformen kein „Nice-to-have“, sondern eine Architekturentscheidung mit direkten Auswirkungen auf Verfügbarkeit, Kosten und Entwicklerproduktivität. Sobald Workloads nicht mehr in einem einzelnen Kubernetes-Cluster leben, ändern sich die Regeln: Service-zu-Service-Kommunikation passiert über längere Strecken, oft über Gateways, Firewalls, NAT, Peering-Links oder SD-WAN. Damit steigt nicht nur die Latenz, sondern…

CNI-Observability: Pflicht-Metriken

CNI-Observability: Pflicht-Metriken ist in Kubernetes-Umgebungen der Unterschied zwischen „wir raten“ und „wir wissen“, warum Netzwerkprobleme auftreten. Viele Incidents wirken zunächst wie Applikationsfehler: Timeouts, sporadische Retries, DNS-Flakiness, unerklärliche 5xx oder stark schwankende Latenzen. In Wirklichkeit entstehen sie häufig in der Netzwerkschicht: Drops durch Policy, MTU-Mismatch, überfüllte Conntrack-Tabellen, überlastete CNI-Daemons, Node-spezifische Routing-Probleme oder ein CNI-Datapath, der unter…

Network-Performance-Tests: iperf vs. realer Workload

Network-Performance-Tests: iperf vs. realer Workload ist ein Klassiker in Infrastruktur- und Kubernetes-Teams, weil beide Seiten im Alltag berechtigte Argumente haben – und trotzdem regelmäßig aneinander vorbeireden. Auf der einen Seite liefert iperf (bzw. iperf3) schnell Zahlen: Durchsatz, Jitter, Packet Loss, Parallelströme. Auf der anderen Seite kommt dann der Einwand: „Unsere Anwendung erreicht davon in Produktion…

CNI 101: Komponenten auf OSI-Layer mappen

CNI 101: Komponenten auf OSI-Layer mappen – das klingt zunächst theoretisch, ist aber in Kubernetes-Praxis einer der schnellsten Wege, um Netzwerkprobleme strukturiert zu verstehen. Viele Fehlerbilder in Clustern wirken „zufällig“: Pods erreichen manche Ziele, andere nicht; DNS ist sporadisch langsam; NetworkPolicies greifen nicht wie erwartet; oder die MTU macht bei bestimmten Workloads Ärger. Wenn Sie…