MTU im CNI: Der Fall „Small works, large fails“

Red Snapper

1 month ago

MTU im CNI: Der Fall „Small works, large fails“ ist eines der typischsten und zugleich frustrierendsten Fehlerbilder in Kubernetes-Netzwerken. Kleine Requests funktionieren, Healthchecks laufen grün, einfache DNS-Queries gehen durch – aber sobald Payloads größer werden, brechen Verbindungen scheinbar zufällig ab: TLS-Handshakes hängen, gRPC-Calls timeouten, große HTTP-Responses werden unvollständig, Datei-Downloads bleiben stehen oder Datenbanken verlieren sporadisch Sessions. Hinter diesem Muster steckt sehr häufig ein MTU-Problem im Zusammenspiel aus CNI (Container Network Interface), Encapsulation (z. B. VXLAN/Geneve), Underlay-Netz (VPC/VNet, physisches Netzwerk), optionaler Verschlüsselung (IPsec/WireGuard) und Path MTU Discovery. Der Kern ist einfach: Pakete oberhalb der effektiven MTU passen nicht mehr durch den Pfad. Wenn Fragmentierung nicht möglich ist oder ICMP-Meldungen blockiert werden, kann der Sender die Paketgröße nicht anpassen – und genau dann entsteht „Small works, large fails“. Dieser Artikel zeigt, wie MTU in CNI-Setups tatsächlich wirkt, welche Ursachen am häufigsten sind, wie Sie das Fehlerbild sauber beweisen und welche Mitigation-Maßnahmen in der Praxis dauerhaft stabil sind, ohne die Sicherheit oder Performance zu opfern.

MTU-Grundlagen: Warum eine Zahl so viele Incidents auslösen kann

MTU (Maximum Transmission Unit) ist die maximale Paketgröße, die auf einer Netzwerkschnittstelle ohne Fragmentierung übertragen werden kann. Im Ethernet-Standard sind 1500 Byte üblich, in vielen Rechenzentren und Cloud-Netzen gibt es je nach Umgebung auch Jumbo Frames (z. B. 9001 Byte). In Kubernetes ist MTU jedoch selten „nur 1500“, weil zwischen Pod und Ziel oft zusätzliche Header hinzukommen: Overlay-Tunnel, Verschlüsselung, NAT-Pfade oder Service-Mesh-Encapsulation. Jeder zusätzliche Header reduziert die effektive Nutzlast, die noch in das Paket passt.

MTU ist pfadabhängig: Entscheidend ist die kleinste MTU entlang des gesamten Pfades.
Encapsulation kostet Bytes: VXLAN/Geneve/IP-in-IP und Verschlüsselung reduzieren die Nutzlast.
„Small works, large fails“ tritt besonders dann auf, wenn Fragmentierung oder PMTUD nicht sauber funktionieren.

Für Hintergrund zu Path MTU Discovery und dem Zusammenspiel mit ICMP ist die IETF-Referenz zu PMTUD ein guter Einstieg: RFC 1191 (Path MTU Discovery). Für IPv6 ist PMTUD ebenfalls zentral, da Router nicht fragmentieren; dazu ist RFC 8201 (IPv6 Path MTU Discovery) relevant.

Warum MTU im CNI besonders oft „unerwartet“ wird

Im klassischen Serverbetrieb ist MTU meist ein Infrastrukturstandard: Interface-MTU, Switches, Router, fertig. In Kubernetes kommt eine zusätzliche virtuelle Schicht dazu: Pods haben eigene Netz-Namespaces, virtuelle Interfaces (veth), virtuelle Bridges oder eBPF-Pfade, und häufig ein Overlay, das Pod-Traffic zwischen Nodes kapselt. Dadurch kann ein Pod eine andere effektive MTU haben als das Node-Interface – und das ohne offensichtliche Hinweise in der Anwendung.

Pod-Interface (veth): hat eine eigene MTU, die der CNI setzt.
Overlay-Interface: Tunnel-Devices haben oft abweichende MTU-Werte.
Underlay: Cloud-/DC-Netz kann geringere MTU haben als angenommen (oder nur auf Teilpfaden).
Verschlüsselung: IPsec/WireGuard/Cloud-Encryption addiert Overhead und reduziert die Nutzlast weiter.

Allgemeine Kubernetes-Networking-Grundlagen, in denen CNI und Pod-Konnektivität eingeordnet werden, finden Sie unter Kubernetes Networking Concepts. Zur CNI-Einordnung dient die Dokumentation unter CNI Dokumentation.

Der Mechanismus hinter „Small works, large fails“

Das Fehlerbild entsteht, wenn große Pakete nicht übertragen werden können und der Sender nicht lernt, kleinere Pakete zu senden. Zwei Mechanismen sind dabei zentral: Fragmentierung und Path MTU Discovery (PMTUD). Bei IPv4 können Router fragmentieren, wenn es erlaubt ist. In der Praxis ist Fragmentierung jedoch oft unerwünscht oder wird durch „Don’t Fragment“ (DF) verhindert. Bei IPv6 fragmentieren Router nicht; PMTUD ist dort noch wichtiger. Wenn ICMP „Fragmentation Needed“ (IPv4) oder „Packet Too Big“ (IPv6) blockiert wird, kann der Sender seine MSS/Packet Size nicht reduzieren – große Pakete droppen einfach.

Warum ICMP-Blocking so gefährlich ist

In vielen Umgebungen wird ICMP pauschal als „unsicher“ geblockt. Das ist einer der häufigsten Gründe für MTU-bedingte Ausfälle. Ohne die passenden ICMP-Typen kann PMTUD nicht funktionieren. Das führt zu schwer reproduzierbaren Problemen, die meist erst unter TLS, gRPC oder großen Payloads auffallen.

IPv4: ICMP „Fragmentation Needed“ ist für PMTUD entscheidend.
IPv6: ICMPv6 „Packet Too Big“ ist praktisch unverzichtbar.
Symptom: Timeouts statt klarer Errors, weil Pakete still droppen.

Wo MTU im CNI-Stack tatsächlich „lebt“

Um MTU-Probleme zu beheben, müssen Sie wissen, auf welcher Ebene die MTU wirksam wird. In Kubernetes/CNI-Setups gibt es typischerweise mehrere relevante MTU-Stellen:

Pod veth (im Pod-Namespace): begrenzt, wie groß Pakete aus dem Pod überhaupt werden können.
Host veth/Bridge/eBPF-Pfad (auf dem Node): kann Drops oder Anpassungen verursachen.
Tunnel-Interface (Overlay): die effektive MTU ist hier oft geringer als 1500.
Physisches Interface (Underlay): begrenzt den Transport zwischen Nodes und Richtung Gateway.
Zwischenkomponenten: Firewalls, Transit Gateways, VPNs, Load Balancer können MTU einschränken.

In der Praxis bedeutet das: Sie können „MTU im Pod“ korrekt setzen und trotzdem Ausfälle haben, wenn der Underlay-Pfad oder ein VPN-Segment kleinere MTU erzwingt. Umgekehrt kann ein zu hoher Pod-MTU-Wert die Wahrscheinlichkeit erhöhen, dass große Pakete entstehen, die dann später droppen.

Die häufigsten Ursachen für MTU-Probleme in Kubernetes-Clustern

Obwohl es viele Varianten gibt, sind die Ursachen in den meisten Incidents erstaunlich ähnlich. Wenn Sie diese Muster kennen, sparen Sie enorm viel Zeit.

Overlay ohne MTU-Anpassung: VXLAN/Geneve aktiviert, aber Pod-MTU bleibt auf 1500.
Zusätzliche Verschlüsselung: IPsec/WireGuard senkt die effektive MTU, ohne dass CNI nachzieht.
Unterlay-MTU kleiner als gedacht: bestimmte Pfade, Peering, VPN, MPLS, Transit reduzieren MTU.
ICMP/PMTUD blockiert: Security Groups/NACLs/Firewalls blockieren relevante ICMP-Typen.
Gemischte Nodepools: unterschiedliche MTU-Konfigurationen je Nodepool (z. B. verschiedene CNI-Settings oder unterschiedliche Netzpfade).
Headless/Service-Mesh Effekte: zusätzliche Header und größere Payloads machen Probleme sichtbar, die bei kleinen Requests verborgen bleiben.

Wie Sie den Fehler beweisen: Kleine vs. große Pakete reproduzierbar testen

Die wichtigste Disziplin ist, das Problem als Größenproblem sichtbar zu machen. „Es geht manchmal nicht“ ist für MTU-Diagnosen zu unpräzise. Sie wollen zeigen: bis Größe X geht es, ab Größe Y bricht es. Dazu sind Tests nötig, die kontrollierte Paketgrößen erzeugen.

Praktisches Testprinzip

Pfad definieren: Quelle (Pod/Node) → Ziel (Pod/Service/extern) und sicherstellen, dass es cross-node ist, wenn das Problem dort auftritt.
Payload schrittweise erhöhen: kleine Payload funktioniert, größere wird instabil oder time-outet.
DF/PMTUD beachten: wenn DF gesetzt ist und PMTUD kaputt, sind Ausfälle besonders deutlich.
TCP vs. UDP unterscheiden: MTU-Probleme zeigen sich bei beiden, aber TLS/gRPC (TCP) machen sie besonders sichtbar.

Wenn Sie dieses Muster sauber nachweisen, haben Sie einen starken Hinweis, dass es nicht primär ein Service-, Ingress- oder Policy-Problem ist, sondern ein Transport-/Pfadproblem.

TCP MSS: Der unterschätzte Hebel zur Mitigation

In vielen Umgebungen ist die praktikabelste Mitigation nicht „MTU überall ändern“, sondern TCP MSS (Maximum Segment Size) so zu clampen, dass TCP-Segmente kleiner sind und gar nicht erst in problematische Größen wachsen. MSS ist die maximale TCP-Nutzlast ohne IP- und TCP-Header. Wenn MSS passend gesetzt ist, entstehen keine oversized Frames, selbst wenn der Pfad eine kleinere MTU hat.

MSS ≈ MTU − IPHeader − TCPHeader

Für IPv4 ohne Optionen gilt häufig: IPHeader = 20 Byte, TCPHeader = 20 Byte, also MSS ≈ MTU − 40. Bei IPv6 ist der IP-Header größer, und zusätzliche Optionen (z. B. TCP Timestamps) erhöhen den Header weiter. In Tunneln kommt Encapsulation-Overhead hinzu, wodurch die effektive MTU sinkt und MSS entsprechend kleiner sein muss.

Wann MSS-Clamping besonders sinnvoll ist

Wenn Underlay-MTU nicht kurzfristig änderbar ist (Cloud-/Provider-Limits).
Wenn ICMP nicht zuverlässig ist oder nicht schnell freigegeben werden kann.
Wenn Sie mehrere Tunnel-/Verschlüsselungsschichten haben.
Wenn Sie schnelle Stabilisierung im Incident benötigen, ohne Infrastruktur neu zu designen.

Mitigation in der Praxis: Maßnahmen, die wirklich wirken

MTU-Probleme löst man selten mit einem einzelnen „Schalter“. Stabil wird es meist durch ein Bündel an Maßnahmen: korrekte MTU-Werte, funktionierendes PMTUD, sinnvolles MSS-Verhalten und konsistente Konfiguration über alle Nodepools.

Maßnahmen auf CNI-/Cluster-Ebene

Pod-MTU bewusst setzen: CNI-Parameter so konfigurieren, dass veth-Interfaces eine passende MTU erhalten.
Overlay-MTU ableiten: Underlay-MTU minus Encapsulation-Overhead, ggf. minus Encryption-Overhead.
Nodepools konsistent halten: keine gemischten MTU-Werte ohne klaren Grund.
NodeLocal DNSCache berücksichtigen: reduziert DNS-Last, löst aber MTU-Probleme nicht direkt; kann Symptome dennoch mildern.

Maßnahmen auf Netzwerk-/Security-Ebene

PMTUD ermöglichen: relevante ICMP/ICMPv6-Typen nicht pauschal blockieren.
Firewall-Regeln prüfen: besonders auf Transit-/VPN-Strecken, wo ICMP oft „aus Versehen“ gefiltert wird.
Peering/Transit validieren: manche Pfade haben niedrigere MTU als die lokale VPC/VNet.

Maßnahmen auf Applikations-/Traffic-Ebene

Connection Reuse: reduziert nicht MTU-Risiko, aber mindert Retry-Stürme bei Timeouts.
Timeouts und Retries: Backoff statt aggressive Retries, damit MTU-Probleme nicht zu Lastspiralen führen.
Payload-Verhalten prüfen: große Antworten (z. B. Debug-Endpoints) können MTU-Probleme sichtbar machen, die sonst latent bleiben.

Warum MTU-Probleme oft nur bei TLS, gRPC oder „bestimmten“ Services sichtbar werden

TLS und gRPC sind häufige Auslöser, weil sie in der Praxis größere Pakete und empfindlichere Handshakes erzeugen. Ein TLS-Handshake kann durch Zertifikatsketten und Extensions deutlich größer werden als simple HTTP-Requests. gRPC nutzt oft HTTP/2 und kann große Frames oder mehrere Header erzeugen. Wenn zusätzlich mTLS im Service Mesh aktiv ist, kommen weitere Header und Proxy-Schichten hinzu – die effektive MTU wird noch kritischer. Das erklärt, warum ein „einfacher curl“ manchmal funktioniert, während echte Produktionsaufrufe scheitern.

TLS: große Handshake-Pakete, besonders mit langen Zertifikatsketten
HTTP/2/gRPC: andere Paket-/Frame-Charakteristik als klassisches HTTP/1.1
Service Mesh: zusätzliche Encapsulation/Proxies, mehr Overhead, mehr Sensibilität

Diagnose-Fallen: Warum klassische Checks Sie täuschen können

Viele Standardchecks testen nicht das, was im Problemfall kaputt ist. Ping testet ICMP und oft nur kleine Payloads. Ein einfacher DNS-Query ist klein. Ein Healthcheck liefert wenige Bytes. Dadurch bleibt das Problem unsichtbar, bis reale Payloads auftreten.

Ping ohne große Payload: kann grün sein, obwohl große Pakete droppen.
Nur intra-node testen: innerhalb eines Nodes gibt es keinen Underlay-Hop; MTU-Probleme zeigen sich oft erst cross-node.
Nur Service-IP testen: Service-Routing kann den Pfad ändern; Sie brauchen auch direkte Pod-IP-Tests.
ICMP pauschal blockieren: macht die Diagnose schwerer und verschlimmert PMTUD-Probleme.

Prävention: Wie Sie MTU im CNI dauerhaft stabil halten

MTU-Stabilität ist weniger „Tuning“ als Standardisierung. Wenn Sie MTU als festen Bestandteil Ihrer Plattform-Baseline behandeln, verschwinden viele der schwer reproduzierbaren Incidents.

MTU-Baseline dokumentieren: Underlay-MTU je Umgebung, Overhead je Encapsulation/Verschlüsselung, daraus abgeleitete Pod-MTU.
Nodepools vereinheitlichen: gleiche MTU pro Cluster oder klare, dokumentierte Ausnahmen.
Change Safety: CNI-Änderungen, Tunnel-Änderungen und VPN/Transit-Änderungen wie kritische Changes behandeln.
Monitoring: Drops, Retransmits und ungewöhnliche TLS/gRPC-Timeouts als potenzielle MTU-Indikatoren überwachen.
ICMP-Regeln bewusst: nur notwendige ICMP-Typen zulassen statt „alles blocken“.

Weiterführende Quellen für MTU, PMTUD und CNI-Kontext

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.