Service Type LoadBalancer: Funktionsweise + tückische Idle Timeouts

Ein Kubernetes Service Type LoadBalancer ist oft der schnellste Weg, eine Anwendung aus dem Cluster heraus erreichbar zu machen: Sie definieren einen Service, Kubernetes spricht über den Cloud Controller Manager oder einen Provider-spezifischen Controller mit der Cloud-API, und im Hintergrund entsteht ein externer Load Balancer samt Listenern, Health Checks und Weiterleitung auf Nodes oder Pods.…

Pod-to-Pod Intermittent Drops: Häufige Ursachen (CPU, IRQ, CNI, Policy)

„Pod-to-Pod Intermittent Drops“ sind eines der frustrierendsten Probleme im Kubernetes-Betrieb: Die Anwendung wirkt „meistens“ gesund, Liveness-Probes sind grün, aber vereinzelt scheitern RPCs, Timeouts häufen sich, oder es gibt sporadische connection reset-Fehler. Diese unregelmäßigen Paketverluste oder Verbindungsabbrüche zwischen Pods lassen sich selten mit einer einzelnen Ursache erklären. Häufig entstehen sie durch eine Kombination aus Ressourcendruck (CPU,…

Egress NAT/Masquerade: Warum Observability schwer wird

Egress NAT/Masquerade ist in Cloud- und Kubernetes-Umgebungen eine alltägliche Technik: Interne Workloads (Pods, VMs oder Container) sprechen nach außen, aber statt ihrer echten Quell-IP erscheint im Internet eine andere Adresse – etwa die IP eines NAT Gateways, eines Egress-Gateways oder des Nodes. Aus Security- und Betriebs-Sicht ist das praktisch (weniger öffentliche IPs, einfache Routing- und…

BGP CNI (Calico): Failure Modes und Recovery-Checkliste

BGP CNI (Calico) ist eine leistungsfähige Architektur, weil sie Pod-Netze nicht „versteckt“, sondern per Routing in Ihr Underlay integriert. Statt Overlay-Tunneln (VXLAN/IPIP) werden Routen zu Pod-CIDRs oder einzelnen Pod-/Block-Routen via Border Gateway Protocol (BGP) verteilt. Das reduziert Overhead, vereinfacht oft die Path-Transparenz und kann Latenz sowie MTU-Probleme minimieren. Gleichzeitig verlagert es die Komplexität in ein…

Multi-Cluster Networking: Latenz, Routing und Failure Domains

Multi-Cluster Networking ist für viele Plattform-Teams der nächste logische Schritt, wenn ein einzelner Kubernetes-Cluster nicht mehr ausreicht: aus Gründen der Verfügbarkeit, der Skalierung, der Compliance, der Team-Autonomie oder der geografischen Nähe zu Nutzern. Gleichzeitig entstehen mit mehreren Clustern neue Herausforderungen, die man im Single-Cluster-Betrieb selten so stark spürt: zusätzliche Latenz über Regions- oder WAN-Strecken, komplexeres…

K8s-Network-Benchmarking: iperf vs. Real Workload (was ist valide?)

K8s-Network-Benchmarking ist in der Praxis deutlich schwieriger, als es auf den ersten Blick wirkt: Ein schneller iperf-Test zwischen zwei Pods liefert beeindruckende Durchsatzwerte – und trotzdem klagen Anwendungen über Timeouts, hohe P99-Latenzen oder sporadische Verbindungsabbrüche. Der Grund ist einfach: iperf misst einen sehr spezifischen Ausschnitt (meist TCP-Stream-Durchsatz) unter kontrollierten Bedingungen, während reale Workloads aus vielen…

K8s Network Observability: Pflicht-Metriken (DNS, Drops, Conntrack)

K8s Network Observability ist die Grundlage dafür, Netzwerkprobleme in Kubernetes schnell, sauber und reproduzierbar zu diagnostizieren – ohne sich auf Bauchgefühl, Zufalls-Fixes oder zeitaufwendige Packet Captures zu verlassen. In modernen Clustern entstehen Störungen selten „nur“ durch ein defektes Kabel; häufiger sind es komplexe Wechselwirkungen aus DNS-Latenz, Paketverlusten (Drops) auf Nodes, conntrack-Sättigung, NAT-Effekten, überlasteten Ingress-Controllern, Service-Routing…

CNI-Upgrade ohne Outage: Pre-/Post-Checkliste fürs Platform-Team

Ein CNI-Upgrade ohne Outage ist für Platform-Teams eine der anspruchsvollsten Wartungsaufgaben im Kubernetes-Betrieb: Der Cluster bleibt „grün“, während sich im Hintergrund der komplette Datenpfad für Pod-to-Pod-, Pod-to-Service- und Egress-Traffic verändert. Kleine Abweichungen bei MTU, conntrack, Policy-Interpretation, kube-proxy-Integration oder eBPF-Features können dabei plötzlich in Timeouts, sporadischen Drops oder DNS-Latenzspitzen sichtbar werden. Gleichzeitig ist ein Upgrade oft…

Runbook „Pod kann DNS nicht resolven“: Ursachen + schnelle Fixes

Wenn ein Pod DNS nicht resolven kann, wirkt das Problem auf den ersten Blick banal („Name lookup failed“), ist in der Praxis aber oft ein Symptom für tieferliegende Störungen im Cluster-Netzwerk, in CoreDNS oder in der Egress-Konnektivität. In Kubernetes hängt fast jede Abhängigkeit indirekt an DNS: Service Discovery innerhalb des Clusters, Zugriff auf externe APIs,…

CoreDNS down: Symptome, Root Cause und Fix (K8s DNS Guide)

Wenn CoreDNS down ist, wirkt Kubernetes plötzlich „kaputt“, obwohl Pods, Nodes und Deployments auf den ersten Blick gesund aussehen. Der Grund ist simpel: DNS ist eine Basisschicht, auf die fast jede Anwendung im Cluster angewiesen ist – von Service Discovery (myservice.myns.svc.cluster.local) über Container-Registries bis hin zu externen APIs. Fällt CoreDNS aus oder wird extrem langsam,…