MTU Underlay vs. Overlay ist eine der häufigsten Ursachen für „mysteriöse“ VXLAN-Drops in modernen EVPN/VXLAN- und Overlay-Netzen. Das Gemeine daran: Der Dienst wirkt teilweise gesund. Kleine Pings funktionieren, Control Plane (BGP EVPN) ist stabil, ARP/ND scheint zu laufen – und trotzdem brechen Anwendungen ab, TCP zeigt Retransmissions, Datenübertragungen sind langsam oder instabil, und manche Flows funktionieren, andere nicht. In klassischen VLAN-Netzen wäre MTU oft ein lokales Thema am Access-Port oder an einem einzelnen Trunk. In VXLAN ist MTU ein End-to-End-Problem im Underlay, weil die Overlay-Frames kapsuliert (encapsulated) werden und dadurch größer werden. Wenn an irgendeiner Stelle im Underlay die effektive MTU nicht ausreicht, entstehen Drops oder Fragmentierung – oft ohne klare, leicht sichtbare Alarme. Je nach Plattform werden Fragmente verworfen, ICMP „Fragmentation Needed“ wird gefiltert, Path-MTU-Discovery (PMTUD) scheitert, oder Hardware-Offloads verhalten sich unerwartet. Das Ergebnis ist ein Fehlerbild, das im NOC wie „random“ aussieht: nur große Payloads gehen nicht, nur bestimmte Applikationen sind betroffen, oder nur Inter-Subnets funktionieren instabil. Dieser Leitfaden erklärt praxisnah, warum MTU Underlay vs. Overlay in VXLAN so kritisch ist, wie Sie Overhead korrekt einplanen, welche typischen Symptome auftreten, wie Sie die Fault Domain schnell eingrenzen und welche Mitigations- und Präventionsmaßnahmen verhindern, dass MTU zum wiederkehrenden Outage-Treiber wird.
Begriffe: Underlay-MTU, Overlay-MTU und „effektive MTU“
Damit Troubleshooting reproduzierbar ist, lohnt sich eine klare Begriffstrennung. In VXLAN-Designs hat jedes Paket mindestens zwei „Perspektiven“: das ursprüngliche Ethernet/IP-Paket im Overlay und das transportierte IP/UDP-Paket im Underlay.
- Overlay-MTU: die MTU, die Endpunkte im Overlay erwarten (z. B. 1500 oder Jumbo), also die maximale Größe des inneren Frames/Packets vor Encapsulation.
- Underlay-MTU: die MTU des IP-Transportnetzes zwischen VTEPs (Router/Switches im Underlay).
- Encapsulation Overhead: zusätzliche Header durch VXLAN (und ggf. weitere Tags), die das Paket im Underlay größer machen.
- Effektive MTU: die maximal transportierbare Overlay-Nutzlast, wenn Underlay-MTU und Overhead berücksichtigt werden.
Für VXLAN als Kapselungsmechanismus ist RFC 7348 eine gute Referenz. Für EVPN als Control Plane ist RFC 7432 zentral; als Architekturkontext für EVPN/VXLAN über IP-Underlay ist RFC 8365 hilfreich.
Warum VXLAN MTU-Probleme so „mysteriös“ erscheinen
In vielen Netzen ist MTU nicht konsistent dokumentiert oder nicht durchgehend umgesetzt. VXLAN macht das sichtbar, weil das Underlay plötzlich mehr tragen muss als früher. Gleichzeitig maskieren moderne Protokolle Probleme auf verschiedene Weise:
- TCP kaschiert Drops: Retransmissions sorgen dafür, dass „irgendwie“ noch etwas ankommt, aber Performance wird schlecht.
- Nur bestimmte Paketgrößen sind betroffen: kleine Pakete gehen, große Pakete droppen – das wirkt wie Applikationsproblem.
- PMTUD scheitert still: ICMP-Fehlermeldungen werden gefiltert oder nicht korrekt generiert; Endpunkte reduzieren die MSS nicht.
- ECMP/Hashing erzeugt scheinbare Zufälligkeit: unterschiedliche Flows nehmen unterschiedliche Underlay-Pfade; nur ein Pfad hat die „kleine MTU“.
- Offloads/ASIC-Verhalten: manche Geräte fragmentieren nicht, manche droppen lieber, andere behandeln Fragmente ungleich.
Das Ergebnis sind Tickets, die oft falsch eingeordnet werden: „EVPN ist kaputt“, „Firewall spinnt“, „nur Kundenseite betroffen“. In Wirklichkeit liegt die Ursache häufig in einem einzigen Underlay-Link mit falscher MTU oder einem Zwischenknoten mit Standard-MTU.
Wie viel Overhead VXLAN typischerweise erzeugt
Für Ops muss die exakte Bytezahl nicht auswendig gelernt werden, aber das Prinzip muss sitzen: VXLAN kapselt Ethernet in UDP/IP. Dadurch kommen äußere Header hinzu. Zusätzlich können VLAN-Tags im Overlay existieren (z. B. 802.1Q) oder sogar QinQ in bestimmten Designs. Jede zusätzliche Schicht erhöht die Paketgröße.
Faustregel für die MTU-Bilanz (MathML)
UnderlayMTU ≥ OverlayMTU + EncapOverhead
Wenn Sie die maximal erlaubte Overlay-MTU aus einer gegebenen Underlay-MTU ableiten wollen, ist die Umstellung hilfreich.
Maximale Overlay-MTU aus Underlay-MTU (MathML)
OverlayMTU_max = UnderlayMTU − EncapOverhead
- Praxisimplikation: Wenn Underlay 1500 ist, bleibt für Overlay nach Encapsulation weniger übrig. Deshalb sind Underlay-Jumbos (z. B. 9000) in VXLAN-Umgebungen verbreitet.
- Zusatzrisiko: Wenn das Overlay selbst VLAN-Tags trägt oder zusätzliche Encapsulation nutzt, muss mehr Headroom eingeplant werden.
Typische Symptome: Woran Sie MTU-Probleme im VXLAN-Betrieb erkennen
MTU-Probleme können wie viele andere Themen aussehen. Die folgenden Muster sind jedoch besonders typisch und sollten in jedem Runbook als „MTU-Verdacht“ geführt werden.
Symptom 1: „Kleine Pakete gehen, große nicht“
- Beobachtung: kleine Pings/Health-Checks ok, Dateiübertragungen brechen ab, HTTPS/SSH sporadisch.
- Grund: große Pakete (oder große TCP-Segmente) überschreiten die effektive Underlay-MTU nach VXLAN-Overhead.
- Operations-Hinweis: Dieses Muster ist fast nie ein reines EVPN-Policy-Problem; es ist stark MTU-/PMTUD-verdächtig.
Symptom 2: Intermittierende Drops nur bei bestimmten Flows
- Beobachtung: manche Verbindungen stabil, andere instabil; Verhalten ändert sich bei Routen-/ECMP-Änderungen.
- Grund: ECMP verteilt Flows auf verschiedene Pfade; ein Pfad hat kleinere MTU oder filtert ICMP.
- Operations-Hinweis: Wenn ein Failover oder ein Link-Change das Problem „verschiebt“, ist Underlay sehr wahrscheinlich.
Symptom 3: TCP Retransmissions und „spiky latency“ ohne klare Link-Errors
- Beobachtung: Latenzspitzen, Retransmissions steigen, aber keine LOS/CRC-Welle im klassischen Sinn.
- Grund: Drops auf bestimmten Paketgrößen; TCP kompensiert, erhöht aber Delay.
- Operations-Hinweis: Besonders perfide bei SLA-Diskussionen: „Netz ist up, aber langsam“.
Symptom 4: Control Plane ok, Data Plane nicht
- Beobachtung: BGP EVPN Sessions stabil, Routen vorhanden, aber Hosts erreichen sich nicht zuverlässig.
- Grund: Control Plane nutzt oft kleinere Pakete; Data Plane trifft MTU-Limits.
- Operations-Hinweis: Das ist ein klassischer Grund, warum EVPN-VXLAN Troubleshooting „anders“ ist als VLAN: Sie müssen Underlay-MTU prüfen, auch wenn EVPN grün ist.
PMTUD und ICMP: Warum „Fragmentation Needed“ häufig fehlt
Path-MTU-Discovery funktioniert über ICMP-Meldungen (bei IPv4: „Fragmentation Needed“, bei IPv6: „Packet Too Big“). In vielen Netzen werden ICMP-Typen aus Sicherheitsgründen gefiltert oder falsch priorisiert. Wenn PMTUD nicht funktioniert, sendet der Endpunkt weiter zu große Pakete – und diese werden im Underlay gedroppt. Das ist die typische Quelle für „mysteriöse“ VXLAN-Drops, weil es keine sichtbare Gegenreaktion gibt.
- ICMP-Filter in ACLs: verhindert PMTUD, erzeugt stille Drops.
- Firewall zwischen VTEPs: kann ICMP blocken oder UDP/4789 nicht sauber behandeln.
- Hardware ohne saubere ICMP-Generierung: manche Geräte droppen lieber, statt korrekt zu signalisieren.
Best Practice ist nicht „ICMP überall offen“, sondern „die notwendigen ICMP-Typen für PMTUD gezielt erlauben“. Das reduziert Outage-Risiko deutlich.
Step-by-Step Troubleshooting: MTU Underlay vs. Overlay systematisch eingrenzen
Das folgende Vorgehen ist NOC-tauglich und vermeidet Vendor-spezifische CLI. Es zwingt zu klaren „Pass/Fail“-Entscheidungen und führt schnell zur richtigen Fault Domain.
Schritt: Scope und Hypothese sauber formulieren
- Betroffen: ein Segment (VNI/VLAN), mehrere Segmente, nur ein Standort, oder netzweit?
- Traffic-Typ: nur große Payloads, nur bestimmte Applikationen, oder auch kleine Pings?
- Zeitkorrelation: trat es nach Change, Link-Failover, Migration oder Underlay-Upgrade auf?
Schritt: Underlay-End-to-End MTU plausibilisieren
- Konfigurationssicht: sind Underlay-Interfaces durchgehend auf der Ziel-MTU gesetzt (inklusive Zwischenrouter)?
- „Smallest Link“-Denken: ein einziger Link mit Standard-MTU definiert die Path-MTU.
- ECMP beachten: nicht nur einen Pfad prüfen, sondern mehrere, falls möglich.
Schritt: Datenebene mit großen Paketen testen (gezielt)
- Testziel: VTEP-zu-VTEP (Underlay) und Host-zu-Host (Overlay) getrennt testen.
- Interpretation: Wenn VTEP-zu-VTEP große Pakete nicht gehen, ist Underlay-MTU direkt betroffen.
- Interpretation: Wenn Underlay ok, aber Overlay nicht, kann Overlay-MTU, MSS-Clamping oder zusätzliche Tags/Encapsulation die Ursache sein.
Schritt: ICMP/PMTUD-Path prüfen
- ICMP-Policy checken: sind „Fragmentation Needed“ (IPv4) bzw. „Packet Too Big“ (IPv6) erlaubt?
- Fragmentation Counters: gibt es Indizien, dass irgendwo fragmentiert oder gedroppt wird?
- Firewall-/ACL-Hop: existiert ein Sicherheitsgerät im Underlay-Pfad, das ICMP oder UDP/4789 beeinflusst?
Schritt: Overlay-spezifische Overhead-Fallen ausschließen
- VLAN-Tags im Overlay: trägt der inner Frame 802.1Q (oder mehr)? Das erhöht die Größe.
- Jumbo im Overlay: sind Endpunkte auf 9000 konfiguriert, Underlay aber nicht? Das führt zu Drops unter Last.
- MSS/Clamping: ist TCP MSS so gesetzt, dass es zur effektiven MTU passt? Wenn nicht, entstehen Retransmissions.
Schritt: Mitigation festlegen (kurzfristig) und Root Cause beheben (nachhaltig)
- Kurzfristig: Overlay-MTU reduzieren oder MSS-Clamping aktivieren, um Drops sofort zu mindern.
- Nachhaltig: Underlay-MTU durchgehend erhöhen und ICMP für PMTUD korrekt erlauben.
- Risiko: „nur MSS“ kann das Problem kaschieren, wenn nicht dokumentiert; Underlay-Fix bleibt die sauberste Lösung.
Mitigations: Was im Incident wirklich hilft
Wenn Kundenimpact akut ist, zählt eine Maßnahme, die schnell stabilisiert, ohne neue Risiken zu erzeugen. Dabei ist klar: Die nachhaltige Lösung ist eine konsistente Underlay-MTU. Im Incident kann das aber dauern, weil viele Geräte/Links betroffen sein können.
Mitigation 1: MSS-Clamping als „Stop-the-bleeding“
MSS-Clamping reduziert die maximale TCP-Segmentgröße, sodass Pakete kleiner bleiben und nach Encapsulation nicht über die Underlay-MTU hinausgehen. Das hilft sofort für TCP-basierte Applikationen, aber nicht für UDP oder bereits große L2-Frames.
- Pro: schnell, oft ohne große Topologieänderung.
- Contra: kaschiert Underlay-Probleme; UDP bleibt betroffen; Performance kann sinken.
Mitigation 2: Overlay-MTU temporär reduzieren
- Pro: wirkt auch für nicht-TCP-Verkehr, weil Frames grundsätzlich kleiner werden.
- Contra: kann Kunden-/Host-Konfiguration beeinflussen; muss sauber kommuniziert und dokumentiert werden.
Mitigation 3: Underlay-MTU-Fix staged ausrollen
- Pro: nachhaltigste Lösung; reduziert langfristig Outage-Risiken.
- Contra: braucht Change-Disziplin; Fehler in Teilsegmenten können weiterhin mysteriöse Drops erzeugen.
Validierung nach Fix: Wie Sie beweisen, dass die Drops weg sind
MTU-Fixes sind nur dann „fertig“, wenn sie messbar stabil sind – und zwar auf mehreren Pfaden (ECMP) und nicht nur für kleine Tests. Eine gute Post-Validation prüft:
- Große Payloads end-to-end: Underlay VTEP↔VTEP und Overlay Host↔Host.
- Retransmissions sinken: TCP Retransmissions und Applikations-Timeouts gehen zurück zur Baseline.
- Drop-Counter: keine ansteigenden Drops/Fragmentation-Indizien auf Underlay-Links.
- Stabilitätsfenster: mindestens 30 Minuten unter repräsentativer Last beobachten.
Delta-Drop als Nachweis (MathML)
ΔDrops = Drops_after − Drops_before
Prävention: Wie Sie MTU-Probleme in VXLAN-Netzen dauerhaft vermeiden
Die beste Mitigation ist ein Design, das MTU als Pflicht-Constraint behandelt, nicht als Nachgedanke. In der Praxis haben sich folgende Maßnahmen bewährt:
- MTU-Standard definieren: einheitliche Underlay-MTU (z. B. „Jumbo by default“) als verbindliches Designziel.
- Automatisierte Compliance: regelmäßige Checks, die Abweichungen („ein Link mit 1500“) früh melden.
- PMTUD-fähige Policies: notwendige ICMP-Typen erlauben, statt pauschal zu blocken.
- ECMP-aware Testing: Tests über mehrere Pfade, besonders nach Changes oder Failovers.
- Change-Templates: MTU-Impact als Pflichtfeld bei jeder Underlay-/Transport-Änderung.
Evidence Pack: Pflichtdaten für MTU/VXLAN-Drop-Tickets
MTU-Probleme eskalieren schnell zu langen, teuren Fehlersuchen, wenn keine standardisierten Daten gesichert werden. Ein Evidence Pack sollte daher minimal, aber vollständig sein:
- Zeitfenster (UTC): Start, Peak, Mitigation, Fix, Stabilitätsfenster.
- Scope: betroffene VNIs/VRFs/Standorte, betroffene VTEPs.
- Underlay-MTU: Ziel-MTU, kleinster Link im Pfad, Abweichungen, ECMP-Pfade (wenn bekannt).
- Overlay-MTU/MSS: konfigurierte Werte, Änderungen während Mitigation.
- Symptomdaten: Retransmissions, Applikations-Timeouts, Drops/Fragmentation-Indizien, „large vs. small“ Testergebnisse.
- Policy-Daten: ICMP/PMTUD relevante ACLs/Firewall-Regeln, UDP/4789 Handling.
Outbound-Ressourcen
- RFC 7348 (VXLAN Encapsulation)
- RFC 7432 (EVPN Control Plane Grundlagen)
- RFC 8365 (EVPN/VXLAN über IP-Underlay – Architektur)
- RFC 1191 (Path MTU Discovery für IPv4)
- RFC 8201 (Path MTU Discovery für IPv6)
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

