kube-proxy, iptables und das Problem „Conntrack Full“

kube-proxy, iptables und das Problem „Conntrack Full“ gehören zu den häufigsten Ursachen für schwer erklärbare Netzwerkstörungen in Kubernetes-Clustern: Verbindungen schlagen plötzlich fehl, Services sind sporadisch nicht erreichbar, Requests hängen in Timeouts, und die Fehler treten scheinbar zufällig auf – oft nur unter Lastspitzen oder bei bestimmten Traffic-Mustern. Hinter dem Symptom „Conntrack Full“ steckt in vielen…

Runbook „Pod kann DNS nicht resolven“

Ein Runbook „Pod kann DNS nicht resolven“ ist in Kubernetes-Umgebungen eines der wertvollsten Standard-Runbooks überhaupt, weil DNS-Probleme extrem häufig auftreten, aber in sehr unterschiedlichen Formen. Ein Pod, der keine Namen auflösen kann, wirkt zunächst wie ein „Anwendungsfehler“: Requests laufen ins Timeout, Image Pulls scheitern, Healthchecks schlagen fehl, Service-to-Service-Kommunikation bricht sporadisch ab. In Wirklichkeit ist DNS…

Node-to-Node-Traffic: Diagnose, die oft in die falsche Richtung geht

Node-to-Node-Traffic: Diagnose, die oft in die falsche Richtung geht – genau dieses Muster sieht man in Kubernetes- und Cloud-Umgebungen immer wieder. Sobald Pods auf unterschiedlichen Nodes miteinander sprechen (oder ein Service-Request über mehrere Nodes läuft), entsteht Node-to-Node-Traffic. Wenn dann Timeouts, sporadische Paketverluste, ungewöhnliche Latenzspitzen oder „nur manchmal“ erreichbare Services auftreten, wird häufig reflexartig an der…

Kubernetes-DNS (CoreDNS): Outage-Pattern und Mitigation

Kubernetes-DNS (CoreDNS): Outage-Pattern und Mitigation ist ein Thema, das viele Cluster erst dann ernst nehmen, wenn „plötzlich alles kaputt“ wirkt – obwohl die eigentliche Ursache nur DNS ist. In Kubernetes hängt nahezu jede interne Kommunikation an Namensauflösung: Services, Headless Services, StatefulSets, Webhooks, Sidecars, Ingress-Backends und externe Abhängigkeiten. Wenn CoreDNS ausfällt oder nur noch langsam antwortet,…

MTU im CNI: Der Fall „Small works, large fails“

MTU im CNI: Der Fall „Small works, large fails“ ist eines der typischsten und zugleich frustrierendsten Fehlerbilder in Kubernetes-Netzwerken. Kleine Requests funktionieren, Healthchecks laufen grün, einfache DNS-Queries gehen durch – aber sobald Payloads größer werden, brechen Verbindungen scheinbar zufällig ab: TLS-Handshakes hängen, gRPC-Calls timeouten, große HTTP-Responses werden unvollständig, Datei-Downloads bleiben stehen oder Datenbanken verlieren sporadisch…

Pod Egress: NAT, Masquerade und die Effekte

Pod Egress: NAT, Masquerade und die Effekte ist ein zentrales Thema in Kubernetes, weil ausgehender Traffic fast immer über Mechanismen läuft, die im Alltag unsichtbar sind – bis sie Probleme machen. Viele Teams fokussieren auf Ingress, Services und NetworkPolicies, übersehen aber, dass nahezu jede Anwendung auch „nach außen“ kommuniziert: Container Images ziehen, externe APIs aufrufen,…

HPA + Connection Pool: Warum Scale-out Errors erhöhen kann

HPA + Connection Pool: Warum Scale-out Errors erhöhen kann – dieses Problem begegnet vielen Teams erst dann, wenn sie „eigentlich alles richtig“ gemacht haben: CPU steigt, der Horizontal Pod Autoscaler (HPA) skaliert sauber nach oben, mehr Pods laufen, aber statt stabilerer Systeme steigen Fehlerraten, Timeouts und Datenbankprobleme. Typische Symptome sind „too many connections“, sporadische 5xx,…

Packet Capture auf Nodes: Sicher in Produktion

Packet Capture auf Nodes: Sicher in Produktion ist eine Fähigkeit, die in Kubernetes- und Cloud-Umgebungen enorm wertvoll ist – und gleichzeitig schnell riskant werden kann, wenn man sie ohne klare Leitplanken einsetzt. Sobald Sie auf Node-Ebene Pakete mitschneiden, sehen Sie nicht nur „Ihre“ Anwendung, sondern potenziell auch Traffic anderer Workloads, Systemkomponenten oder sensibler Dienste. Genau…

„Image Pull Timeout“ debuggen: Network oder Registry?

„Image Pull Timeout“ debuggen: Network oder Registry? – diese Frage stellt sich in Kubernetes-Clustern häufig genau dann, wenn der Druck am größten ist: Ein Rollout hängt, Pods bleiben in ImagePullBackOff oder ErrImagePull, neue Nodes können keine Workloads starten, und plötzlich wirkt der ganze Cluster „kaputt“. Der Fehlertext ist dabei selten eindeutig, weil ein Timeout beim…

Load-Balancer-Service: L4-Verhalten und Idle Timeout

Load-Balancer-Service: L4-Verhalten und Idle Timeout ist eines der Themen, die in Kubernetes erstaunlich oft zu „komischen“ Produktionsfehlern führen: Verbindungen brechen nach exakt ähnlichen Zeiträumen ab, WebSockets oder gRPC-Streams werden still getrennt, Datenbank-Sessions wirken instabil, oder Long-Polling endet plötzlich mit Timeouts – obwohl CPU, Memory und Pod-Logs zunächst unauffällig sind. Der Grund ist meist nicht der…