Runbook „Pod kann DNS nicht resolven“

Ein Runbook „Pod kann DNS nicht resolven“ ist in Kubernetes-Umgebungen eines der wertvollsten Standard-Runbooks überhaupt, weil DNS-Probleme extrem häufig auftreten, aber in sehr unterschiedlichen Formen. Ein Pod, der keine Namen auflösen kann, wirkt zunächst wie ein „Anwendungsfehler“: Requests laufen ins Timeout, Image Pulls scheitern, Healthchecks schlagen fehl, Service-to-Service-Kommunikation bricht sporadisch ab. In Wirklichkeit ist DNS…

Node-to-Node-Traffic: Diagnose, die oft in die falsche Richtung geht

Node-to-Node-Traffic: Diagnose, die oft in die falsche Richtung geht – genau dieses Muster sieht man in Kubernetes- und Cloud-Umgebungen immer wieder. Sobald Pods auf unterschiedlichen Nodes miteinander sprechen (oder ein Service-Request über mehrere Nodes läuft), entsteht Node-to-Node-Traffic. Wenn dann Timeouts, sporadische Paketverluste, ungewöhnliche Latenzspitzen oder „nur manchmal“ erreichbare Services auftreten, wird häufig reflexartig an der…

Kubernetes-DNS (CoreDNS): Outage-Pattern und Mitigation

Kubernetes-DNS (CoreDNS): Outage-Pattern und Mitigation ist ein Thema, das viele Cluster erst dann ernst nehmen, wenn „plötzlich alles kaputt“ wirkt – obwohl die eigentliche Ursache nur DNS ist. In Kubernetes hängt nahezu jede interne Kommunikation an Namensauflösung: Services, Headless Services, StatefulSets, Webhooks, Sidecars, Ingress-Backends und externe Abhängigkeiten. Wenn CoreDNS ausfällt oder nur noch langsam antwortet,…

MTU im CNI: Der Fall „Small works, large fails“

MTU im CNI: Der Fall „Small works, large fails“ ist eines der typischsten und zugleich frustrierendsten Fehlerbilder in Kubernetes-Netzwerken. Kleine Requests funktionieren, Healthchecks laufen grün, einfache DNS-Queries gehen durch – aber sobald Payloads größer werden, brechen Verbindungen scheinbar zufällig ab: TLS-Handshakes hängen, gRPC-Calls timeouten, große HTTP-Responses werden unvollständig, Datei-Downloads bleiben stehen oder Datenbanken verlieren sporadisch…

Pod Egress: NAT, Masquerade und die Effekte

Pod Egress: NAT, Masquerade und die Effekte ist ein zentrales Thema in Kubernetes, weil ausgehender Traffic fast immer über Mechanismen läuft, die im Alltag unsichtbar sind – bis sie Probleme machen. Viele Teams fokussieren auf Ingress, Services und NetworkPolicies, übersehen aber, dass nahezu jede Anwendung auch „nach außen“ kommuniziert: Container Images ziehen, externe APIs aufrufen,…

HPA + Connection Pool: Warum Scale-out Errors erhöhen kann

HPA + Connection Pool: Warum Scale-out Errors erhöhen kann – dieses Problem begegnet vielen Teams erst dann, wenn sie „eigentlich alles richtig“ gemacht haben: CPU steigt, der Horizontal Pod Autoscaler (HPA) skaliert sauber nach oben, mehr Pods laufen, aber statt stabilerer Systeme steigen Fehlerraten, Timeouts und Datenbankprobleme. Typische Symptome sind „too many connections“, sporadische 5xx,…

Packet Capture auf Nodes: Sicher in Produktion

Packet Capture auf Nodes: Sicher in Produktion ist eine Fähigkeit, die in Kubernetes- und Cloud-Umgebungen enorm wertvoll ist – und gleichzeitig schnell riskant werden kann, wenn man sie ohne klare Leitplanken einsetzt. Sobald Sie auf Node-Ebene Pakete mitschneiden, sehen Sie nicht nur „Ihre“ Anwendung, sondern potenziell auch Traffic anderer Workloads, Systemkomponenten oder sensibler Dienste. Genau…

„Image Pull Timeout“ debuggen: Network oder Registry?

„Image Pull Timeout“ debuggen: Network oder Registry? – diese Frage stellt sich in Kubernetes-Clustern häufig genau dann, wenn der Druck am größten ist: Ein Rollout hängt, Pods bleiben in ImagePullBackOff oder ErrImagePull, neue Nodes können keine Workloads starten, und plötzlich wirkt der ganze Cluster „kaputt“. Der Fehlertext ist dabei selten eindeutig, weil ein Timeout beim…

Bandwidth Limits: Warum der Throughput nicht zur Erwartung passt

„Bandwidth Limits“ sind einer der häufigsten Gründe, warum der Throughput in der Praxis nicht zur Erwartung passt – selbst dann, wenn auf dem Papier eine hohe Bandbreite zugesichert ist. Viele Teams planen mit „bis zu X Gbit/s“, messen dann aber nur einen Bruchteil und vermuten sofort einen Fehler im Netzwerk. In Wirklichkeit entsteht die Abweichung…

Route-Table-Debugging: Warum Workloads nicht aus der VPC herauskommen

Route-Table-Debugging ist eine der häufigsten, aber am schwierigsten zu entwirrenden Ursachen, wenn Workloads „plötzlich“ nicht mehr aus der VPC herauskommen. Das äußert sich in Timeouts beim Zugriff auf externe APIs, fehlgeschlagenen Paketdownloads, nicht erreichbaren Container-Registries oder abreißenden Datenbank-Replikationen. In der Praxis ist die Route Table selten allein schuld – aber sie ist fast immer der…