Load-Balancer-Service: L4-Verhalten und Idle Timeout

Load-Balancer-Service: L4-Verhalten und Idle Timeout ist eines der Themen, die in Kubernetes erstaunlich oft zu „komischen“ Produktionsfehlern führen: Verbindungen brechen nach exakt ähnlichen Zeiträumen ab, WebSockets oder gRPC-Streams werden still getrennt, Datenbank-Sessions wirken instabil, oder Long-Polling endet plötzlich mit Timeouts – obwohl CPU, Memory und Pod-Logs zunächst unauffällig sind. Der Grund ist meist nicht der…

BGP-CNI (Calico etc.): Häufige Failure Modes

BGP-CNI (Calico etc.): Häufige Failure Modes ist ein Thema, das in Kubernetes-Umgebungen oft erst dann Aufmerksamkeit bekommt, wenn „plötzlich“ Pod-to-Pod-Verbindungen abbrechen, einzelne Nodes isoliert wirken oder externe Systeme nur noch sporadisch Pod-Netze erreichen. Der Grund: Ein BGP-basiertes CNI ersetzt klassische Overlay-Mechanismen (oder ergänzt sie) durch dynamisches Routing. Statt Pakete über VXLAN/IP-in-IP zu kapseln, werden Pod-…

Multi-Cluster-Networking: Latenz und Failure Domains

Multi-Cluster-Networking: Latenz und Failure Domains ist in modernen Plattformen kein „Nice-to-have“, sondern eine Architekturentscheidung mit direkten Auswirkungen auf Verfügbarkeit, Kosten und Entwicklerproduktivität. Sobald Workloads nicht mehr in einem einzelnen Kubernetes-Cluster leben, ändern sich die Regeln: Service-zu-Service-Kommunikation passiert über längere Strecken, oft über Gateways, Firewalls, NAT, Peering-Links oder SD-WAN. Damit steigt nicht nur die Latenz, sondern…

CNI-Observability: Pflicht-Metriken

CNI-Observability: Pflicht-Metriken ist in Kubernetes-Umgebungen der Unterschied zwischen „wir raten“ und „wir wissen“, warum Netzwerkprobleme auftreten. Viele Incidents wirken zunächst wie Applikationsfehler: Timeouts, sporadische Retries, DNS-Flakiness, unerklärliche 5xx oder stark schwankende Latenzen. In Wirklichkeit entstehen sie häufig in der Netzwerkschicht: Drops durch Policy, MTU-Mismatch, überfüllte Conntrack-Tabellen, überlastete CNI-Daemons, Node-spezifische Routing-Probleme oder ein CNI-Datapath, der unter…

Network-Performance-Tests: iperf vs. realer Workload

Network-Performance-Tests: iperf vs. realer Workload ist ein Klassiker in Infrastruktur- und Kubernetes-Teams, weil beide Seiten im Alltag berechtigte Argumente haben – und trotzdem regelmäßig aneinander vorbeireden. Auf der einen Seite liefert iperf (bzw. iperf3) schnell Zahlen: Durchsatz, Jitter, Packet Loss, Parallelströme. Auf der anderen Seite kommt dann der Einwand: „Unsere Anwendung erreicht davon in Produktion…

CNI 101: Komponenten auf OSI-Layer mappen

CNI 101: Komponenten auf OSI-Layer mappen – das klingt zunächst theoretisch, ist aber in Kubernetes-Praxis einer der schnellsten Wege, um Netzwerkprobleme strukturiert zu verstehen. Viele Fehlerbilder in Clustern wirken „zufällig“: Pods erreichen manche Ziele, andere nicht; DNS ist sporadisch langsam; NetworkPolicies greifen nicht wie erwartet; oder die MTU macht bei bestimmten Workloads Ärger. Wenn Sie…

Egress-Gateway-Pattern: Sichere Outbound-Kontrolle

Das Egress-Gateway-Pattern: Sichere Outbound-Kontrolle ist in Kubernetes- und Cloud-Plattformen eines der wirksamsten Mittel, um aus „jeder Pod darf überall hin“ eine nachvollziehbare, auditierbare und kontrollierte Ausgangskommunikation zu machen. In vielen Clustern ist Outbound-Traffic historisch gewachsen: Pods sprechen direkt mit externen APIs, laden Images, senden Telemetrie, rufen SaaS-Dienste auf oder verbinden sich mit Datenbanken außerhalb des…

NetworkPolicy-Debugging: Die blockierende Rule finden

NetworkPolicy-Debugging: Die blockierende Rule finden – genau daran scheitern viele Kubernetes-Teams, weil NetworkPolicies auf den ersten Blick simpel wirken, in der Realität aber aus mehreren Ebenen bestehen: Label-Selektoren, Namespace-Selektoren, Ports/Protokolle, Richtungslogik (Ingress/Egress), Default-Deny-Effekte, CNI-spezifische Umsetzung (iptables, nftables, eBPF) und nicht zuletzt die Frage, ob das Cluster überhaupt NetworkPolicy erzwingt. Das typische Fehlerbild ist immer ähnlich:…

Intermittierende Drops: IRQ/CPU-Saturation auf Nodes

Intermittierende Drops: IRQ/CPU-Saturation auf Nodes sind eines der typischsten „Geisterprobleme“ in Kubernetes- und Cloud-Umgebungen: Es gibt Paketverlust, Timeouts und sporadische Verbindungsabbrüche – aber nur zeitweise. Die Dashboards zeigen vielleicht keine dauerhafte Überlast, die Applikation sieht nur erhöhte Retries, und ein klassischer Netzwerk-Test wirkt unauffällig. In der Praxis steckt dahinter oft keine „mystische“ Netzwerkanomalie, sondern ein…

Service vs. Ingress: Der oft verwirrende Traffic-Pfad

Service vs. Ingress: Der oft verwirrende Traffic-Pfad ist eines der Themen, die in Kubernetes immer wieder für Missverständnisse sorgen – selbst in Teams mit viel Plattform-Erfahrung. Der Grund ist simpel: „Service“ und „Ingress“ lösen unterschiedliche Probleme auf unterschiedlichen Ebenen, sehen in YAML aber ähnlich „zugänglich“ aus. In der Praxis führt das zu typischen Fragen wie:…