MLAG/vPC Troubleshooting ist im Rechenzentrum eine der wichtigsten Disziplinen, weil Multi-Chassis Link Aggregation (MLAG) – je nach Hersteller als vPC, MC-LAG, VLT, IRF, StackWise Virtual oder ähnlich bezeichnet – genau dort sitzt, wo viele kritische Verbindungen enden: Server-Bonds, Uplinks, Border-Leaves, Storage und Load-Balancer. Im Normalbetrieb ist MLAG unsichtbar und wirkt „einfach stabil“. Im Fehlerfall ist der Impact jedoch überproportional: Split-Brain-Szenarien können Loops oder Blackholes erzeugen, ein gestörter Peer-Link kann den State-Sync zerstören, Consistency Checks können Ports „suspendieren“ und dadurch scheinbar zufällige Ausfälle verursachen. Besonders tückisch ist, dass viele Symptome wie klassische Layer-2-Probleme aussehen – MAC-Flapping, STP-Events, sporadische Drops –, die eigentliche Root Cause aber in der MLAG-Domäne liegt. Professionelles MLAG/vPC Troubleshooting bedeutet deshalb, konsequent drei Dinge zu trennen: (1) ist die MLAG-Domäne gesund (Peer-Keepalive, Peer-Link, Role/Primary)? (2) ist der Datenpfad über den Peer-Link korrekt (VLANs, MTU, LACP, Control-Traffic)? (3) greifen Consistency Checks und Schutzmechanismen richtig (oder schießen sie legitime Konfiguration ab)? Dieser Artikel zeigt eine methodische Vorgehensweise, mit der Sie Split-Brain, Peer-Link-Probleme und Consistency-Fehlerbilder schnell erkennen, beweisen und stabil beheben.
Begriffe und Architektur: Was bei MLAG/vPC wirklich synchronisiert wird
Unabhängig vom Hersteller basiert MLAG auf derselben Idee: Zwei physische Switches präsentieren sich für Downstream-Geräte (Server, ToR, Access) wie ein logischer LAG-Partner. Damit das funktioniert, müssen beide Peers einen gemeinsamen Zustand teilen. Typischerweise werden synchronisiert:
- LAG/Port-Channel State: Welche Member sind aktiv, welche LACP-Parameter gelten, wie wird gehasht?
- MAC/ARP/ND (je nach Plattform): Damit Traffic zu Hosts auch dann korrekt ankommt, wenn nur ein Peer den Host direkt sieht.
- STP- und VLAN-Zustand: Welche VLANs sind on-link, welche sind gesperrt, welche Instanzen/Ports sind blockiert?
- Control-Plane-Health: Domänenrolle (Primary/Secondary), Split-Brain-Schutz, Konsistenzprüfungen.
Die wichtigsten technischen Konsequenzen für Troubleshooting:
- Peer-Link ist Datenpfad und Sync-Pfad: Wenn der Peer-Link degradiert ist, kippt oft beides – Daten und Kontrolle.
- Keepalive ist nur Lebenszeichen: Der Keepalive-Pfad verhindert Split-Brain nicht „magisch“, er erkennt ihn.
- Consistency Checks sind Schutz, aber auch Ausfallquelle: Sie verhindern gefährliche Inkonistenzen, können aber bei Drift Ports hart deaktivieren.
High-Signal Fehlerbilder im MLAG/vPC-Betrieb
MLAG-Probleme zeigen sich häufig nicht als „MLAG down“, sondern als Folgeeffekte. Wenn Sie diese Muster kennen, kommen Sie schneller zur richtigen Hypothese.
- Split-Brain-Indizien: Beide Peers glauben, sie sind Primary/Active; MAC-Flapping und L2-Instabilität häufen sich.
- Peer-Link Degradation: Port-Channel bleibt „up“, aber VLANs fehlen oder MTU passt nicht – Ergebnis: Blackholes oder asymmetrische Pfade.
- Ports „suspended“: vPC/MLAG nimmt Member oder ganze Port-Channels aus dem Betrieb wegen Consistency Violations.
- Nur ein Teil der Flows betroffen: Hashing verteilt Traffic, aber ein Peer-Pfad ist gestört; Impact wirkt intermittierend.
- STP/TCN Storms: Topology Changes in einer MLAG-Domäne sind oft Symptom für Peer-Link oder Konfigdrift.
- „Nur ein VLAN kaputt“: Sehr häufig: VLAN nicht erlaubt/active auf Peer-Link oder inkonsistente VLAN-Mappings.
Split-Brain: Ursachen, Symptome und saubere Nachweise
Split-Brain ist das Worst-Case-Szenario, weil zwei unabhängige Geräte gleichzeitig denselben logischen Zustand beanspruchen. Der Split-Brain-Schutz ist daher ein Kernbestandteil von MLAG/vPC-Designs. Häufige Ursachen:
- Peer-Link down, Keepalive up (oder umgekehrt): Je nach Plattform kann das zu „partial connectivity“ führen, die als Split-Brain bewertet wird.
- Keepalive-Pfad instabil: Paketverlust oder asymmetrische Routen im Keepalive-Netz erzeugen false positives.
- Control-Plane Overload: CPU/Memory-Probleme verzögern Keepalive/State-Messages; Domäne kippt.
- Software-Bugs/Version-Mismatch: Split-Brain-Detection oder Role-Election verhält sich fehlerhaft.
High-Signal Nachweise für Split-Brain
- Rollen-Status: Beide Peers reporten „Primary“ oder „Active“ (plattformabhängig).
- Peer-Link Status inkonsistent: Ein Peer sieht Peer-Link up, der andere down, oder VLAN-Operational-State unterscheidet sich.
- MAC-Flapping Logs: dieselben MACs „wandern“ schnell zwischen Peers; häufig mit STP-Events gekoppelt.
- Consistency-Triggered Suspends: Ports werden automatisch heruntergenommen, um Loops zu verhindern.
Peer-Link Troubleshooting: „Up“ heißt nicht „funktioniert“
Der Peer-Link ist das Rückgrat der MLAG-Domäne. Viele Incidents entstehen, weil der Peer-Link formal „up“ ist, aber funktional nicht das transportiert, was er transportieren muss. Typische Ursachen:
- Allowed VLANs fehlen: Der Peer-Link trägt nicht alle VLANs/VNIs, die er tragen muss – Ergebnis: VLAN-spezifische Blackholes.
- Native VLAN/Tagging-Fallen: Native VLAN mismatch kann Control- oder L2-Traffic verfälschen.
- MTU mismatch: Bei Jumbo/Overlay-Umgebungen können große Control-Messages oder Datenpfade scheitern, obwohl der Link „up“ bleibt.
- LACP/Port-Channel split: Peer-Link ist selbst ein LAG; Member-Probleme, hashing oder LACP-Timer-Mismatch können Degradation erzeugen.
- Congestion/Microbursts: Peer-Link ist überlastet; Drops entstehen; Sync wird instabil.
Die schnellste Peer-Link Diagnose in der Praxis
- VLAN-Oper-State: nicht nur „configured“, sondern „operational“ auf beiden Peers prüfen.
- Interface Counter: errors/discards/drops am Peer-Link und seinen Membern (IF-MIB Basis: RFC 2863).
- LACP Status: collecting/distributing auf allen Membern, keine churn-events.
- MTU End-to-End: Peer-Link MTU muss zum Fabric-Design passen, insbesondere bei VXLAN/EVPN und Jumbo.
Consistency Checks: Schutzmechanismus und häufige Störquelle
Consistency Checks verhindern gefährliche Inkonistenzen, z. B. unterschiedliche VLAN-Listen, STP-Parameter, Port-Channel-Settings oder (plattformabhängig) unterschiedliche L3-Gateway-Parameter. Wenn ein Check fehlschlägt, reagieren Systeme oft hart: Ports werden suspendiert, vPCs werden down genommen oder Traffic wird auf einen Peer gezwungen. Das ist sicher, aber operativ schmerzhaft.
Typische Consistency Violations
- VLAN/Trunk mismatch: Allowed VLANs oder Native VLAN differieren zwischen Peers oder zwischen Peer-Link und Downstream-vPC.
- Port-Channel Parameter mismatch: LACP Mode/Timers, Speed/Duplex, MTU, STP settings (je nach Plattform).
- STP-Parameter mismatch: Root-Placement, Port-Types, Guard-Features inkonsistent.
- Gateway/Anycast mismatch: unterschiedliche Anycast-GW MAC/IP oder VRF-Parameter führen zu L3-Anomalien.
Warum „Suspend“ oft die richtige Reaktion ist
In vielen MLAG/vPC-Implementierungen ist „suspend“ eine Schutzmaßnahme, um Broadcast-Loops, Duplicate Forwarding oder MAC-Table-Korruption zu verhindern. Im Troubleshooting ist das wichtig: Wenn Ports suspendiert sind, ist das nicht „das Problem“, sondern das Symptom eines Detektors. Die Ursache ist fast immer eine Inkonsistenz oder ein Peer-Link/Keepalive-Thema.
Intermittierende Fehler in MLAG/vPC: Hashing und asymmetrische Pfade
MLAG-Fehler wirken oft „intermittierend“, weil Traffic über Hashing verteilt wird. Wenn nur ein Peer oder nur ein Peer-Link-Member degradiert ist, trifft es nur die Flows, die dort landen. Typische Effekte:
- Nur einige Sessions brechen: TCP Retransmissions steigen nur bei bestimmten 5-Tuples.
- Nur bestimmte Ziele betroffen: Wenn ein Peer den ARP/ND-Cache anders füllt oder wenn ein VLAN auf dem Peer-Link fehlt.
- p99/p999 Probleme: Microbursts auf Peer-Link erzeugen Latenzspitzen, während Durchschnittswerte ok aussehen.
Hier ist Flow Telemetry (NetFlow/IPFIX, sFlow) als „Radar“ sehr wertvoll, um zu sehen, welche Interfaces/Member betroffen sind. IPFIX als Standard ist in RFC 7011 beschrieben.
STP und MLAG/vPC: Root Placement, Loops und TCN Storms
Viele moderne Datacenter fahren EVPN/VXLAN und reduzieren STP, aber STP ist in vielen Access- oder Übergangsszenarien weiterhin relevant. MLAG/vPC interagiert mit STP, weil zwei Geräte logisch als „eine“ Downstream-Verbindung wirken sollen. Typische Fehlerbilder:
- TCN Storms: Häufige Topology Changes, weil Ports ständig rein/raus gehen (Peer-Link/LACP/Consistency).
- Root Placement falsch: Wenn Root Bridge unerwartet wechselt, kann Traffic unerwartete Pfade nehmen.
- Guard Features: BPDU Guard/Root Guard/Loop Guard können Ports err-disable/suspend setzen, wenn die MLAG-Topologie unerwartete BPDUs sieht.
Praktisch: Wenn STP-Logs eskalieren, prüfen Sie zuerst Peer-Link, LACP-churn und Consistency, bevor Sie STP „tunen“.
Toolchain: Was Sie für MLAG/vPC RCA wirklich brauchen
Die effizienteste MLAG/vPC-Diagnose kombiniert wenige Signale, die schnell eine Beweiskette ergeben.
- Domänenstatus: Role (primary/secondary), peer adjacency, keepalive state, split-brain indicators.
- Peer-Link Health: LACP state, member counters, VLAN operational state, MTU, queue drops.
- Consistency Output: welche Checks failing, welche vPCs/MLAGs suspended, welche Parameter differieren.
- Logs: peer-link events, role changes, consistency violations, MAC flapping, STP events.
- Gezielte Captures: nur wenn nötig: „Follow the Packet“ zwischen Peers, oder Captures auf dem Peer-Link bei Verdacht auf Drops. Referenzen: tcpdump Manpage und Wireshark Dokumentation.
Mitigation im Incident: Stabilisieren ohne neue Risiken
Wenn MLAG/vPC kippt, brauchen Sie oft schnelle Stabilisierung. Hier ist Vorsicht wichtig: Einige Maßnahmen reduzieren zwar sofort den Impact, erhöhen aber das Risiko für Loops oder Blackholes, wenn die Domäne inkonsistent ist.
- Peer-Link stabilisieren zuerst: Wenn Peer-Link wirklich kaputt ist, ist das meist die Root Cause. Reparieren/isolieren Sie defekte Member, korrigieren Sie VLAN/MTU, bevor Sie Policies lockern.
- Split-Brain-Schutz respektieren: Suspend/Disable ist oft ein Schutz. „Force up“ ohne Ursache zu beheben kann Loops erzeugen.
- Scope begrenzen: Wenn ein einzelner vPC/MLAG betroffen ist, isolieren Sie ihn, statt die ganze Domäne zu ändern.
- Traffic umleiten: Wenn möglich, Workloads auf den stabilen Pfad verschieben, bis die Domäne wieder konsistent ist.
Runbook-Baustein: MLAG/vPC Troubleshooting in 15 Minuten
- Minute 0–3: Scope festlegen: Welche vPCs/MLAGs betroffen? Welche VLANs/VRFs? Gibt es Split-Brain-/Role-Change-Events im Zeitfenster?
- Minute 3–6: Domänenhealth prüfen: peer adjacency, keepalive state, primary/secondary Rollen, split-brain indicators. Sofort prüfen, ob Schutzmechanismen (suspend) aktiv sind.
- Minute 6–9: Peer-Link Health prüfen: LACP/member-state, errors/discards/drops, VLAN operational state, MTU. „Up“ reicht nicht – funktionale Checks machen.
- Minute 9–12: Consistency Checks auswerten: Welche Parameter sind inkonsistent? VLAN lists, port-channel settings, STP guards, Anycast GW. Drift vs. Change-Event identifizieren.
- Minute 12–15: Mitigation: defektes Member isolieren, VLAN/MTU/Tagging korrigieren, Consistency-Drift beheben. Danach verifizieren: vPCs unsuspend, MAC flapping stoppt, Drops sinken, Traffic stabil. Alles dokumentieren (Zeitpunkt, Änderung, Effekt).
Weiterführende Quellen
- RFC 2863 für Interface-Counter (Errors/Discards) als Basis zur Bewertung von Peer-Link-Degradation
- IEEE 802.1AX als Referenz für Link Aggregation (LACP), relevant für Peer-Link-LAGs und Member-Churn
- RFC 7011 für IPFIX/Flow Telemetry zur Eingrenzung intermittierender, hash-bedingter Fehlerbilder
- tcpdump Manpage und Wireshark Dokumentation für gezielte Captures zur Beweisführung bei Blackholes und Drops im Peer-Link
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.












