Conntrack Full auf Kubernetes-Nodes: Detection und dauerhafte Lösung

Red Snapper

3 months ago

Ein „Conntrack Full auf Kubernetes-Nodes“-Vorfall gehört zu den tückischsten Fehlerbildern im Clusterbetrieb: Anwendungen wirken plötzlich instabil, Requests laufen in Timeouts, Services werden sporadisch unerreichbar – und doch zeigen CPU, RAM und Pod-Status zunächst keine eindeutigen Auffälligkeiten. Ursache ist häufig eine erschöpfte Connection-Tracking-Tabelle im Linux-Kernel (nf_conntrack). Diese Tabelle wird von netfilter/iptables (und teils auch von eBPF-/CNI-Pfaden) genutzt, um Netzwerkzustände zu verfolgen. Ist sie voll, können neue Verbindungen nicht mehr sauber angelegt werden: SYNs bleiben hängen, NAT-Zuordnungen fehlen, UDP-Flows verlieren ihren „State“, und selbst interne Cluster-Kommunikation kann kollabieren. In Kubernetes verstärken sich diese Effekte, weil viele kurzlebige Verbindungen, Health-Checks, Sidecars, NAT (NodePort, SNAT/Egress), Service-Mesh-Traffic oder überdimensionierte Retries gleichzeitig auf denselben Node treffen können. Dieser Leitfaden zeigt, wie Sie Conntrack-Full zuverlässig erkennen, welche Root Causes in Kubernetes typisch sind und wie Sie eine dauerhafte Lösung umsetzen – inklusive Telemetrie, Tuning, Architekturmaßnahmen und praktischen Checklisten für den On-Call.

Conntrack in Kubernetes: Was genau ist das und warum wird es „full“?

Conntrack (Connection Tracking) ist eine Kernel-Funktion, die Netzwerkflüsse als Zustände verwaltet. Sie wird insbesondere dann relevant, wenn Pakete durch netfilter/iptables laufen, NAT stattfindet oder Stateful-Firewall-Regeln aktiv sind. Kubernetes setzt – je nach Distribution und CNI – häufig Komponenten ein, die auf iptables/ipvs oder eBPF basieren. Selbst in eBPF-Umgebungen existiert Conntrack in vielen Setups weiterhin als relevante Ressource, etwa für bestimmte NAT-Pfade oder Node-Komponenten. Die Conntrack-Tabelle ist begrenzt: Sobald die maximale Anzahl an Einträgen erreicht ist, kann der Kernel keine neuen Zustände mehr anlegen. Ergebnis: Neue Verbindungen scheitern oder werden stark verzögert, während bestehende Verbindungen oft noch „irgendwie“ funktionieren – ein klassisches Rezept für intermittierende Produktionsfehler.

State für TCP/UDP/ICMP: TCP hat klarere Zustände (SYN, ESTABLISHED), UDP ist pseudo-stateful und kann bei Last viele Einträge erzeugen.
NAT-Verbrauch: SNAT/NodePort/Egress-NAT kann Conntrack stark belasten, weil pro Flow Zuordnungen entstehen.
Timeouts steuern Belegung: Wie lange Einträge gehalten werden, hängt von Protokoll und Kernel-Timeouts ab. Lange Timeouts erhöhen das Risiko, dass die Tabelle „voll“ läuft.
Hot Nodes: Manche Nodes tragen mehr Traffic (Ingress/EGress-Gateways, DaemonSets, HPA-Spikes) und laufen deshalb zuerst in Conntrack-Full.

Typische Symptome: Wie sich Conntrack Full im Cluster bemerkbar macht

Conntrack-Full ist selten ein sauberer „Hard Down“. Häufig sehen Sie zunächst „Flaky“-Verhalten: Retries steigen, Latenz explodiert, einzelne Ziele sind betroffen, andere nicht. Besonders irritierend: Pods können weiterhin CPU-arm und „Ready“ sein, während Netzwerkpfade kollabieren.

Intermittierende Timeouts: Verbindungen zu internen Services oder externen APIs laufen unregelmäßig in Timeouts.
Spikes bei 5xx/499: Upstream sieht Fehler, Client bricht ab, Load Balancer meldet ungewöhnliche Rückläufe.
DNS/Service Discovery wirkt „kaputt“: Nicht weil DNS falsch ist, sondern weil UDP/TCP-Verbindungen zu CoreDNS oder Service-IPs nicht mehr zuverlässig aufgebaut werden.
NodePort/Ingress instabil: Traffic über NodePort oder NAT-lastige Pfade bricht zuerst ein.
Kernel-Meldungen: In Logs/Events tauchen Hinweise auf, dass Conntrack-Einträge nicht angelegt werden können.
Nur einzelne Nodes: Pods auf bestimmten Nodes sind betroffen; ein Reschedule „löst“ das Problem kurzfristig.

Warnsignale in Kernel/Node-Logs

Ein klassischer Hinweis ist eine Kernel-Meldung, die auf eine erschöpfte Conntrack-Tabelle hindeutet. Je nach Distribution/Kernel-Version kann das in dmesg, journalctl -k oder Node-Logging auftauchen. Wichtig ist weniger der exakte Wortlaut als das Muster: „table full“, „dropping packet“, „nf_conntrack: table full“ oder „conntrack: not enough entries“.

Detection: So messen Sie Conntrack-Auslastung zuverlässig

Für eine saubere Incident-Diagnose benötigen Sie zwei Werte: die aktuell genutzten Conntrack-Einträge und das konfigurierte Maximum. Unter Linux finden Sie diese Werte typischerweise unter /proc bzw. via sysctl. Viele Monitoring-Stacks (Prometheus Node Exporter, eBPF-Agents, Cloud Monitoring) können diese Werte ebenfalls erfassen.

Aktuelle Einträge: /proc/sys/net/netfilter/nf_conntrack_count
Maximale Einträge: /proc/sys/net/netfilter/nf_conntrack_max
Weitere Parameter: Timeouts (z. B. nf_conntrack_tcp_timeout_established, nf_conntrack_udp_timeout) und Hashsize

Belegungsgrad als Kennzahl (für Alerting geeignet)

Ein praxistauglicher SLO-nahe Alarm ist der Belegungsgrad der Conntrack-Tabelle. Als Faustregel ist ein Alarm ab ~70–80% sinnvoll (frühzeitig), und ein kritischer Alarm ab ~90–95% (akut). Der Belegungsgrad lässt sich als Quotient aus Count und Max definieren:

Belegungsgrad = nf_conntrack_count nf_conntrack_max

Zusätzlich hilfreich ist eine Rate: Wie schnell wächst die Tabelle? Ein schneller Anstieg deutet oft auf Traffic-Spikes, Retry-Stürme oder eine „Leak“-artige Situation (z. B. UDP-Flow-Flood oder sehr lange Timeouts).

Erste Eingrenzung im Incident: Ist es wirklich Conntrack?

Conntrack-Full kann ähnliche Symptome wie DNS-Ausfälle, MTU-Probleme, NetworkPolicy-Fehler oder Upstream-Latenzen erzeugen. Der Unterschied: Bei Conntrack sehen Sie häufig node-spezifische Korrelationen und ein klares Ressourcenlimit auf Kernel-Ebene.

Node-Korrelation: Betroffene Pods häufen sich auf wenigen Nodes; ein Drain/Reschedule verschiebt das Problem.
Verbindungsaufbau: Neue TCP-Verbindungen scheitern eher als bestehende; „Handshake hängt“ ist typisch.
NAT-Pfade: Probleme treten besonders dort auf, wo SNAT/NodePort/Ingress/egress-intensive Workloads sind.
Messwerte: nf_conntrack_count nähert sich nf_conntrack_max oder bleibt am Limit.

Root Causes in Kubernetes: Warum Conntrack auf Nodes voll läuft

In Kubernetes sind es selten „einfach zu viele Nutzer“. Häufig sind es systemische Faktoren: Architekturpfade, aggressive Client-Retries, bestimmte Workload-Typen oder ungünstige Defaults. Die folgenden Ursachen sind in der Praxis besonders häufig.

Hohe Anzahl kurzlebiger Verbindungen

Chatty Microservices: Viele Services öffnen pro Request neue TCP-Verbindungen statt Connection Pooling zu nutzen.
Health Checks und Probes: Liveness/Readiness-Probes können bei hoher Pod-Anzahl erheblich Traffic erzeugen.
Sidecars: Service Mesh, Proxies, Security Agents erhöhen die Anzahl an Flows pro Business-Request.

NAT und NodePort als Conntrack-Verstärker

SNAT bei Egress: Wenn viele Pods über denselben Node egressen, steigt Conntrack-Belegung stark.
NodePort/ExternalTrafficPolicy: Bestimmte Load-Balancing- und NodePort-Pfade können Conntrack intensiver nutzen.
NAT-Gateway-Effekte: Bei Cloud-Setups kann zusätzlich ein NAT-Gateway oder egress NAT Layer Limits triggern – Conntrack ist dann nur eine von mehreren Engstellen.

Retry Storms und Timeout-Misskonfiguration

Zu kurze Timeouts führen zu häufigen Abbrüchen und neuen Verbindungen.
Retries ohne Backoff vervielfachen die Anzahl an gleichzeitigen Verbindungsversuchen.
Thundering Herd: Bei einem kurzen Upstream-Glitch starten viele Pods gleichzeitig neue Verbindungen.

Unpassende Conntrack-Timeouts

UDP-Timeouts: Wenn UDP-Einträge zu lange gehalten werden, füllt sich die Tabelle schnell (z. B. bei DNS, Telemetrie, Game/Voice-Workloads).
TCP ESTABLISHED Timeout: Sehr lange Established-Timeouts halten Einträge auch dann, wenn Anwendungen Verbindungen nicht sauber schließen.
TIME_WAIT/CLOSE_WAIT: Nicht direkt Conntrack, aber ähnliche Muster in Verbindungshäufigkeit und Ressourcenverbrauch.

Schnelle Sofortmaßnahmen im Incident (ohne dauerhafte Risiken)

Im akuten Incident ist das Ziel: Druck aus dem System nehmen, um Stabilität wiederherzustellen. Dabei sollten Maßnahmen möglichst reversibel und kontrollierbar bleiben.

Traffic umverteilen: Betroffene Nodes drainen oder Workloads skalieren, damit Hot Nodes entlastet werden.
Conntrack-Max erhöhen: Als kurzfristige Maßnahme kann ein höheres nf_conntrack_max Zeit kaufen – vorausgesetzt, RAM ist ausreichend.
Spitze kappen: Rate Limits, Circuit Breaker oder temporäre Retry-Reduktion auf Client-Seite (wenn möglich) stabilisieren die Lage.
Problemquelle isolieren: Workloads identifizieren, die ungewöhnlich viele Verbindungen/UDP-Flows erzeugen, und gezielt drosseln.

Wichtiger Hinweis zur Sicherheit

Ein pauschales „Timeouts erhöhen“ oder „Retries hochdrehen“ verschlimmert Conntrack-Full oft, weil es die Zahl gleichzeitiger Flows erhöht. Stabiler ist es, Concurrency zu begrenzen, Backoff einzuführen und Connection Reuse zu erzwingen.

Dauerhafte Lösung: Conntrack-Full systemisch verhindern

Eine dauerhafte Lösung besteht aus drei Bausteinen: (1) Kapazität korrekt dimensionieren, (2) Traffic- und NAT-Pfade optimieren, (3) Verhalten der Anwendungen und Plattformkomponenten verbessern. Idealerweise setzen Sie alle drei um – sonst verschiebt sich das Problem nur.

Kapazität und Kernel-Tuning sauber dimensionieren

nf_conntrack_max passend setzen: Dimensionieren Sie anhand realer Peak-Flows pro Node, nicht anhand Durchschnitt.
Hashsize berücksichtigen: Eine passende Hash-Tabelle reduziert Lookup-Kosten und verbessert Performance (Details sind kernel-/distro-abhängig).
Timeouts überprüfen: UDP- und TCP-Timeouts so wählen, dass Einträge nicht unnötig lange bleiben, ohne legitime Flows zu brechen.
Ressourcenbudget: Mehr Conntrack-Einträge benötigen RAM; planen Sie Node-Memory entsprechend ein.

NAT reduzieren und Egress-Pfade entkoppeln

Egress-Gateways: Leiten Sie ausgehenden Traffic über dedizierte Komponenten/Nodes, statt jedes Node als Egress-Hotspot zu nutzen.
Direkte Pod-IP-Connectivity: Wo möglich, reduzieren Sie NAT durch passende Netzwerkarchitektur und Load-Balancing-Strategien.
Service-Traffic optimieren: Prüfen Sie kube-proxy-Modus (iptables vs. IPVS) und CNI-spezifische Optimierungen.

Workload-Verhalten: Weniger neue Verbindungen, weniger DNS/UDP-Flut

Connection Pooling: HTTP Keep-Alive, gRPC Channel Reuse, DB-Pooling konsequent nutzen.
Retry-Politik: Backoff, Jitter und maximale Versuche begrenzen; Retries nur bei retrybaren Fehlern.
Timeout-Hierarchie: Timeouts entlang der Kette abstimmen (Client < Proxy < Upstream), um „Retry Spirals“ zu verhindern.
DNS-Caching: NodeLocal DNSCache oder Client-seitige Resolver-Caches sinnvoll einsetzen, um UDP-Last zu senken.

Monitoring und Alerting: Welche Signale wirklich helfen

Conntrack-Full kommt selten ohne Vorwarnung. Die Kunst ist, die richtigen Metriken zu beobachten und so zu alarmieren, dass On-Call nicht im Rauschen untergeht, aber früh genug reagieren kann.

Conntrack Belegungsgrad: Warnung ab 70–80%, kritisch ab 90–95% (node-spezifisch).
Conntrack Drops: Wenn verfügbar, zählen Sie Drops/Failed Inserts (starker Indikator für „jetzt brennt’s“).
Netzwerk-Latenz und Timeouts: SYN-Timeouts, TCP Retransmits, erhöhte connect()-Latenz.
Top Talkers: Pods/Namespaces mit besonders vielen ausgehenden Verbindungen oder DNS-Queries.
Ingress/Egress-Knoten: Spezielle Nodes (Gateways) separat überwachen, da dort Peaks zuerst auftreten.

Praxis-Tipp: Alert-Korrelation statt Einzelalarm

Ein einzelner Alarm „Conntrack 80%“ ist hilfreich, aber noch besser ist Korrelation: Conntrack steigt und TCP connect-Latenz steigt und 5xx/Timeouts steigen. So reduzieren Sie False Positives und priorisieren echte Incidents.

Checkliste: Conntrack Full auf Kubernetes-Nodes – Debug und Remediation

Betroffene Nodes identifizieren: Welche Nodes korrelieren mit Timeouts/Fehlern?
Conntrack Count/Max prüfen: Liegt nf_conntrack_count nahe nf_conntrack_max?
Kernel-Logs checken: Hinweise auf „table full“ oder Drops.
Traffic-Pfade prüfen: NodePort/SNAT/Egress-Gateway/Ingress Controller als Hotspots.
Top Talker finden: Welche Pods/Namespaces erzeugen Peaks (kurzlebige TCP, UDP-Spam, DNS)?
Stabilisieren: Workloads umverteilen, ggf. conntrack_max moderat erhöhen, Retries drosseln.
Dauerhaft lösen: Pooling, Backoff, NAT-Reduktion, Node-Dimensionierung, Timeouts/Defaults sauber setzen.
Prävention: Dashboards + Alerts auf Belegungsgrad, Drops, connect-Latenz, Retransmits.

Outbound-Links zu relevanten Informationsquellen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.