Multi-Cluster-Networking: Latenz und Failure Domains

Multi-Cluster-Networking: Latenz und Failure Domains ist in modernen Plattformen kein „Nice-to-have“, sondern eine Architekturentscheidung mit direkten Auswirkungen auf Verfügbarkeit, Kosten und Entwicklerproduktivität. Sobald Workloads nicht mehr in einem einzelnen Kubernetes-Cluster leben, ändern sich die Regeln: Service-zu-Service-Kommunikation passiert über längere Strecken, oft über Gateways, Firewalls, NAT, Peering-Links oder SD-WAN. Damit steigt nicht nur die Latenz, sondern…

CNI-Observability: Pflicht-Metriken

CNI-Observability: Pflicht-Metriken ist in Kubernetes-Umgebungen der Unterschied zwischen „wir raten“ und „wir wissen“, warum Netzwerkprobleme auftreten. Viele Incidents wirken zunächst wie Applikationsfehler: Timeouts, sporadische Retries, DNS-Flakiness, unerklärliche 5xx oder stark schwankende Latenzen. In Wirklichkeit entstehen sie häufig in der Netzwerkschicht: Drops durch Policy, MTU-Mismatch, überfüllte Conntrack-Tabellen, überlastete CNI-Daemons, Node-spezifische Routing-Probleme oder ein CNI-Datapath, der unter…

Network-Performance-Tests: iperf vs. realer Workload

Network-Performance-Tests: iperf vs. realer Workload ist ein Klassiker in Infrastruktur- und Kubernetes-Teams, weil beide Seiten im Alltag berechtigte Argumente haben – und trotzdem regelmäßig aneinander vorbeireden. Auf der einen Seite liefert iperf (bzw. iperf3) schnell Zahlen: Durchsatz, Jitter, Packet Loss, Parallelströme. Auf der anderen Seite kommt dann der Einwand: „Unsere Anwendung erreicht davon in Produktion…

CNI 101: Komponenten auf OSI-Layer mappen

CNI 101: Komponenten auf OSI-Layer mappen – das klingt zunächst theoretisch, ist aber in Kubernetes-Praxis einer der schnellsten Wege, um Netzwerkprobleme strukturiert zu verstehen. Viele Fehlerbilder in Clustern wirken „zufällig“: Pods erreichen manche Ziele, andere nicht; DNS ist sporadisch langsam; NetworkPolicies greifen nicht wie erwartet; oder die MTU macht bei bestimmten Workloads Ärger. Wenn Sie…

Egress-Gateway-Pattern: Sichere Outbound-Kontrolle

Das Egress-Gateway-Pattern: Sichere Outbound-Kontrolle ist in Kubernetes- und Cloud-Plattformen eines der wirksamsten Mittel, um aus „jeder Pod darf überall hin“ eine nachvollziehbare, auditierbare und kontrollierte Ausgangskommunikation zu machen. In vielen Clustern ist Outbound-Traffic historisch gewachsen: Pods sprechen direkt mit externen APIs, laden Images, senden Telemetrie, rufen SaaS-Dienste auf oder verbinden sich mit Datenbanken außerhalb des…

NetworkPolicy-Debugging: Die blockierende Rule finden

NetworkPolicy-Debugging: Die blockierende Rule finden – genau daran scheitern viele Kubernetes-Teams, weil NetworkPolicies auf den ersten Blick simpel wirken, in der Realität aber aus mehreren Ebenen bestehen: Label-Selektoren, Namespace-Selektoren, Ports/Protokolle, Richtungslogik (Ingress/Egress), Default-Deny-Effekte, CNI-spezifische Umsetzung (iptables, nftables, eBPF) und nicht zuletzt die Frage, ob das Cluster überhaupt NetworkPolicy erzwingt. Das typische Fehlerbild ist immer ähnlich:…

Intermittierende Drops: IRQ/CPU-Saturation auf Nodes

Intermittierende Drops: IRQ/CPU-Saturation auf Nodes sind eines der typischsten „Geisterprobleme“ in Kubernetes- und Cloud-Umgebungen: Es gibt Paketverlust, Timeouts und sporadische Verbindungsabbrüche – aber nur zeitweise. Die Dashboards zeigen vielleicht keine dauerhafte Überlast, die Applikation sieht nur erhöhte Retries, und ein klassischer Netzwerk-Test wirkt unauffällig. In der Praxis steckt dahinter oft keine „mystische“ Netzwerkanomalie, sondern ein…

Service vs. Ingress: Der oft verwirrende Traffic-Pfad

Service vs. Ingress: Der oft verwirrende Traffic-Pfad ist eines der Themen, die in Kubernetes immer wieder für Missverständnisse sorgen – selbst in Teams mit viel Plattform-Erfahrung. Der Grund ist simpel: „Service“ und „Ingress“ lösen unterschiedliche Probleme auf unterschiedlichen Ebenen, sehen in YAML aber ähnlich „zugänglich“ aus. In der Praxis führt das zu typischen Fragen wie:…

Sicheres CNI-Upgrade: Pre-/Post-Checkliste

Ein sicheres CNI-Upgrade: Pre-/Post-Checkliste ist in Kubernetes-Umgebungen kein „Routine-Update“, sondern ein Change an einer der kritischsten Schichten: dem Datenpfad. Das Container Network Interface (CNI) bestimmt, wie Pods miteinander sprechen, wie Services geroutet werden, wie NetworkPolicies durchgesetzt werden, wie Egress funktioniert und wie observierbar das Verhalten im Incident ist. Wenn dabei etwas schiefgeht, sehen Sie nicht…

kube-proxy, iptables und das Problem „Conntrack Full“

kube-proxy, iptables und das Problem „Conntrack Full“ gehören zu den häufigsten Ursachen für schwer erklärbare Netzwerkstörungen in Kubernetes-Clustern: Verbindungen schlagen plötzlich fehl, Services sind sporadisch nicht erreichbar, Requests hängen in Timeouts, und die Fehler treten scheinbar zufällig auf – oft nur unter Lastspitzen oder bei bestimmten Traffic-Mustern. Hinter dem Symptom „Conntrack Full“ steckt in vielen…