kube-proxy: iptables vs. IPVS – Impact auf Performance und Debugging

Wer Kubernetes im Betrieb verantwortet, stößt früher oder später auf eine zentrale Komponente der Service-Kommunikation: kube-proxy. Spätestens wenn Services unter Last langsamer werden, Node-CPU unerwartet steigt oder Debugging von „Connection refused“ und Timeouts ansteht, wird die Frage relevant: kube-proxy iptables vs. IPVS – welcher Modus ist im eigenen Cluster aktiv, was bedeutet das für Performance,…

Packet Capture in Kubernetes: tcpdump auf Node/Pod sicher nutzen

Packet Capture in Kubernetes ist ein mächtiges Werkzeug, wenn Netzwerkprobleme schwer zu greifen sind: sporadische Timeouts, unerklärliche Resets, MTU-Effekte („small works, large fails“), TLS-Handshakes, die nur unter Last scheitern, oder ein Service, der ausgerechnet über einen bestimmten Node instabil wirkt. Gleichzeitig ist Packet Capturing sensibel, weil ein Mitschnitt potenziell personenbezogene Daten, Tokens, Session-IDs oder proprietäre…

Image Pull Timeout: Network, DNS oder Registry? So stellst du es sicher

Ein Image Pull Timeout ist eines der häufigsten Symptome, wenn Kubernetes-Workloads nicht starten: Pods bleiben in ImagePullBackOff, ErrImagePull oder hängen lange in „ContainerCreating“. In der Praxis führt das schnell zu der Frage: Ist das Problem Network, DNS oder Registry – und wie stelle ich es sicher, statt nur zu raten? Genau hier hilft ein strukturiertes…

Service Type LoadBalancer: Funktionsweise + tückische Idle Timeouts

Ein Kubernetes Service Type LoadBalancer ist oft der schnellste Weg, eine Anwendung aus dem Cluster heraus erreichbar zu machen: Sie definieren einen Service, Kubernetes spricht über den Cloud Controller Manager oder einen Provider-spezifischen Controller mit der Cloud-API, und im Hintergrund entsteht ein externer Load Balancer samt Listenern, Health Checks und Weiterleitung auf Nodes oder Pods.…

Pod-to-Pod Intermittent Drops: Häufige Ursachen (CPU, IRQ, CNI, Policy)

„Pod-to-Pod Intermittent Drops“ sind eines der frustrierendsten Probleme im Kubernetes-Betrieb: Die Anwendung wirkt „meistens“ gesund, Liveness-Probes sind grün, aber vereinzelt scheitern RPCs, Timeouts häufen sich, oder es gibt sporadische connection reset-Fehler. Diese unregelmäßigen Paketverluste oder Verbindungsabbrüche zwischen Pods lassen sich selten mit einer einzelnen Ursache erklären. Häufig entstehen sie durch eine Kombination aus Ressourcendruck (CPU,…

Egress NAT/Masquerade: Warum Observability schwer wird

Egress NAT/Masquerade ist in Cloud- und Kubernetes-Umgebungen eine alltägliche Technik: Interne Workloads (Pods, VMs oder Container) sprechen nach außen, aber statt ihrer echten Quell-IP erscheint im Internet eine andere Adresse – etwa die IP eines NAT Gateways, eines Egress-Gateways oder des Nodes. Aus Security- und Betriebs-Sicht ist das praktisch (weniger öffentliche IPs, einfache Routing- und…

BGP CNI (Calico): Failure Modes und Recovery-Checkliste

BGP CNI (Calico) ist eine leistungsfähige Architektur, weil sie Pod-Netze nicht „versteckt“, sondern per Routing in Ihr Underlay integriert. Statt Overlay-Tunneln (VXLAN/IPIP) werden Routen zu Pod-CIDRs oder einzelnen Pod-/Block-Routen via Border Gateway Protocol (BGP) verteilt. Das reduziert Overhead, vereinfacht oft die Path-Transparenz und kann Latenz sowie MTU-Probleme minimieren. Gleichzeitig verlagert es die Komplexität in ein…

Multi-Cluster Networking: Latenz, Routing und Failure Domains

Multi-Cluster Networking ist für viele Plattform-Teams der nächste logische Schritt, wenn ein einzelner Kubernetes-Cluster nicht mehr ausreicht: aus Gründen der Verfügbarkeit, der Skalierung, der Compliance, der Team-Autonomie oder der geografischen Nähe zu Nutzern. Gleichzeitig entstehen mit mehreren Clustern neue Herausforderungen, die man im Single-Cluster-Betrieb selten so stark spürt: zusätzliche Latenz über Regions- oder WAN-Strecken, komplexeres…

K8s-Network-Benchmarking: iperf vs. Real Workload (was ist valide?)

K8s-Network-Benchmarking ist in der Praxis deutlich schwieriger, als es auf den ersten Blick wirkt: Ein schneller iperf-Test zwischen zwei Pods liefert beeindruckende Durchsatzwerte – und trotzdem klagen Anwendungen über Timeouts, hohe P99-Latenzen oder sporadische Verbindungsabbrüche. Der Grund ist einfach: iperf misst einen sehr spezifischen Ausschnitt (meist TCP-Stream-Durchsatz) unter kontrollierten Bedingungen, während reale Workloads aus vielen…

K8s Network Observability: Pflicht-Metriken (DNS, Drops, Conntrack)

K8s Network Observability ist die Grundlage dafür, Netzwerkprobleme in Kubernetes schnell, sauber und reproduzierbar zu diagnostizieren – ohne sich auf Bauchgefühl, Zufalls-Fixes oder zeitaufwendige Packet Captures zu verlassen. In modernen Clustern entstehen Störungen selten „nur“ durch ein defektes Kabel; häufiger sind es komplexe Wechselwirkungen aus DNS-Latenz, Paketverlusten (Drops) auf Nodes, conntrack-Sättigung, NAT-Effekten, überlasteten Ingress-Controllern, Service-Routing…