K8s-Network-Benchmarking: iperf vs. Real Workload (was ist valide?)

K8s-Network-Benchmarking ist in der Praxis deutlich schwieriger, als es auf den ersten Blick wirkt: Ein schneller iperf-Test zwischen zwei Pods liefert beeindruckende Durchsatzwerte – und trotzdem klagen Anwendungen über Timeouts, hohe P99-Latenzen oder sporadische Verbindungsabbrüche. Der Grund ist einfach: iperf misst einen sehr spezifischen Ausschnitt (meist TCP-Stream-Durchsatz) unter kontrollierten Bedingungen, während reale Workloads aus vielen…

K8s Network Observability: Pflicht-Metriken (DNS, Drops, Conntrack)

K8s Network Observability ist die Grundlage dafür, Netzwerkprobleme in Kubernetes schnell, sauber und reproduzierbar zu diagnostizieren – ohne sich auf Bauchgefühl, Zufalls-Fixes oder zeitaufwendige Packet Captures zu verlassen. In modernen Clustern entstehen Störungen selten „nur“ durch ein defektes Kabel; häufiger sind es komplexe Wechselwirkungen aus DNS-Latenz, Paketverlusten (Drops) auf Nodes, conntrack-Sättigung, NAT-Effekten, überlasteten Ingress-Controllern, Service-Routing…

CNI-Upgrade ohne Outage: Pre-/Post-Checkliste fürs Platform-Team

Ein CNI-Upgrade ohne Outage ist für Platform-Teams eine der anspruchsvollsten Wartungsaufgaben im Kubernetes-Betrieb: Der Cluster bleibt „grün“, während sich im Hintergrund der komplette Datenpfad für Pod-to-Pod-, Pod-to-Service- und Egress-Traffic verändert. Kleine Abweichungen bei MTU, conntrack, Policy-Interpretation, kube-proxy-Integration oder eBPF-Features können dabei plötzlich in Timeouts, sporadischen Drops oder DNS-Latenzspitzen sichtbar werden. Gleichzeitig ist ein Upgrade oft…

Runbook „Pod kann DNS nicht resolven“: Ursachen + schnelle Fixes

Wenn ein Pod DNS nicht resolven kann, wirkt das Problem auf den ersten Blick banal („Name lookup failed“), ist in der Praxis aber oft ein Symptom für tieferliegende Störungen im Cluster-Netzwerk, in CoreDNS oder in der Egress-Konnektivität. In Kubernetes hängt fast jede Abhängigkeit indirekt an DNS: Service Discovery innerhalb des Clusters, Zugriff auf externe APIs,…

CoreDNS down: Symptome, Root Cause und Fix (K8s DNS Guide)

Wenn CoreDNS down ist, wirkt Kubernetes plötzlich „kaputt“, obwohl Pods, Nodes und Deployments auf den ersten Blick gesund aussehen. Der Grund ist simpel: DNS ist eine Basisschicht, auf die fast jede Anwendung im Cluster angewiesen ist – von Service Discovery (myservice.myns.svc.cluster.local) über Container-Registries bis hin zu externen APIs. Fällt CoreDNS aus oder wird extrem langsam,…

Egress Gateway designen für Outbound-Traffic-Kontrolle (K8s Pattern)

Ein Egress Gateway ist ein bewährtes Kubernetes-Pattern, um Outbound-Traffic kontrollierbar zu machen: Statt dass jeder Pod direkt ins Internet oder zu externen SaaS-APIs spricht, wird ausgehender Traffic gezielt über einen zentralen Kontrollpunkt geleitet. Damit lassen sich Allowlists, Authentifizierung, TLS-Inspection (falls zulässig), Protokollierung, DLP-Regeln, Rate Limits und konsistente Quell-IP-Adressen (Egress NAT) umsetzen. In der Praxis ist…

Conntrack Full auf Kubernetes-Nodes: Detection und dauerhafte Lösung

Ein „Conntrack Full auf Kubernetes-Nodes“-Vorfall gehört zu den tückischsten Fehlerbildern im Clusterbetrieb: Anwendungen wirken plötzlich instabil, Requests laufen in Timeouts, Services werden sporadisch unerreichbar – und doch zeigen CPU, RAM und Pod-Status zunächst keine eindeutigen Auffälligkeiten. Ursache ist häufig eine erschöpfte Connection-Tracking-Tabelle im Linux-Kernel (nf_conntrack). Diese Tabelle wird von netfilter/iptables (und teils auch von eBPF-/CNI-Pfaden)…

Was ist ein Service Mesh? Auswirkungen auf OSI-Layer und SRE-Betrieb

Ein Service Mesh ist eine Infrastruktur-Schicht für die Kommunikation zwischen Services (Service-to-Service) in verteilten Systemen – besonders in Microservices- und Kubernetes-Umgebungen. Statt dass jede Anwendung Authentifizierung, Verschlüsselung, Retries, Timeouts, Telemetrie und Traffic-Steuerung selbst implementiert, verlagert ein Service Mesh viele dieser Funktionen in eine standardisierte Datenebene („Data Plane“) und eine Steuerungsebene („Control Plane“). Für SRE-Teams ist…

MTU-Probleme im CNI: Warum große Requests scheitern (Checkliste + Tests)

Wenn in Kubernetes „kleine Requests funktionieren, große Requests scheitern“, sind MTU-Probleme im CNI eine der häufigsten und zugleich am schwersten zu erkennenden Ursachen. MTU steht für „Maximum Transmission Unit“ – also die maximale Paketgröße, die ein Netzwerkpfad ohne Fragmentierung transportieren kann. In Container-Umgebungen kommt zusätzlich Overhead durch Tunnel (VXLAN, Geneve), Verschlüsselung (IPsec/WireGuard), Encapsulation durch Cloud-Netzwerke,…

mTLS-Handshake-Failure im Service Mesh: Debugging Schritt für Schritt

Ein mTLS-Handshake-Failure im Service Mesh gehört zu den häufigsten Ursachen für plötzlich auftretende 503/504-Fehler, „upstream connect error“-Meldungen oder sporadische Verbindungsabbrüche zwischen Microservices. Besonders tückisch ist, dass ein Handshake-Problem oft wie ein klassisches Netzwerk- oder Applikationsproblem wirkt: DNS funktioniert, IP-Konnektivität scheint vorhanden, aber Requests brechen dennoch ab. Der Grund: mTLS (mutual TLS) fügt eine zusätzliche Sicherheits-…