MLAG/vPC Troubleshooting: Split-Brain, Peer-Link und Consistency Checks

MLAG/vPC Troubleshooting ist im Rechenzentrum eine der wichtigsten Disziplinen, weil Multi-Chassis Link Aggregation (MLAG) – je nach Hersteller als vPC, MC-LAG, VLT, IRF, StackWise Virtual oder ähnlich bezeichnet – genau dort sitzt, wo viele kritische Verbindungen enden: Server-Bonds, Uplinks, Border-Leaves, Storage und Load-Balancer. Im Normalbetrieb ist MLAG unsichtbar und wirkt „einfach stabil“. Im Fehlerfall ist der Impact jedoch überproportional: Split-Brain-Szenarien können Loops oder Blackholes erzeugen, ein gestörter Peer-Link kann den State-Sync zerstören, Consistency Checks können Ports „suspendieren“ und dadurch scheinbar zufällige Ausfälle verursachen. Besonders tückisch ist, dass viele Symptome wie klassische Layer-2-Probleme aussehen – MAC-Flapping, STP-Events, sporadische Drops –, die eigentliche Root Cause aber in der MLAG-Domäne liegt. Professionelles MLAG/vPC Troubleshooting bedeutet deshalb, konsequent drei Dinge zu trennen: (1) ist die MLAG-Domäne gesund (Peer-Keepalive, Peer-Link, Role/Primary)? (2) ist der Datenpfad über den Peer-Link korrekt (VLANs, MTU, LACP, Control-Traffic)? (3) greifen Consistency Checks und Schutzmechanismen richtig (oder schießen sie legitime Konfiguration ab)? Dieser Artikel zeigt eine methodische Vorgehensweise, mit der Sie Split-Brain, Peer-Link-Probleme und Consistency-Fehlerbilder schnell erkennen, beweisen und stabil beheben.

Begriffe und Architektur: Was bei MLAG/vPC wirklich synchronisiert wird

Unabhängig vom Hersteller basiert MLAG auf derselben Idee: Zwei physische Switches präsentieren sich für Downstream-Geräte (Server, ToR, Access) wie ein logischer LAG-Partner. Damit das funktioniert, müssen beide Peers einen gemeinsamen Zustand teilen. Typischerweise werden synchronisiert:

  • LAG/Port-Channel State: Welche Member sind aktiv, welche LACP-Parameter gelten, wie wird gehasht?
  • MAC/ARP/ND (je nach Plattform): Damit Traffic zu Hosts auch dann korrekt ankommt, wenn nur ein Peer den Host direkt sieht.
  • STP- und VLAN-Zustand: Welche VLANs sind on-link, welche sind gesperrt, welche Instanzen/Ports sind blockiert?
  • Control-Plane-Health: Domänenrolle (Primary/Secondary), Split-Brain-Schutz, Konsistenzprüfungen.

Die wichtigsten technischen Konsequenzen für Troubleshooting:

  • Peer-Link ist Datenpfad und Sync-Pfad: Wenn der Peer-Link degradiert ist, kippt oft beides – Daten und Kontrolle.
  • Keepalive ist nur Lebenszeichen: Der Keepalive-Pfad verhindert Split-Brain nicht „magisch“, er erkennt ihn.
  • Consistency Checks sind Schutz, aber auch Ausfallquelle: Sie verhindern gefährliche Inkonistenzen, können aber bei Drift Ports hart deaktivieren.

High-Signal Fehlerbilder im MLAG/vPC-Betrieb

MLAG-Probleme zeigen sich häufig nicht als „MLAG down“, sondern als Folgeeffekte. Wenn Sie diese Muster kennen, kommen Sie schneller zur richtigen Hypothese.

  • Split-Brain-Indizien: Beide Peers glauben, sie sind Primary/Active; MAC-Flapping und L2-Instabilität häufen sich.
  • Peer-Link Degradation: Port-Channel bleibt „up“, aber VLANs fehlen oder MTU passt nicht – Ergebnis: Blackholes oder asymmetrische Pfade.
  • Ports „suspended“: vPC/MLAG nimmt Member oder ganze Port-Channels aus dem Betrieb wegen Consistency Violations.
  • Nur ein Teil der Flows betroffen: Hashing verteilt Traffic, aber ein Peer-Pfad ist gestört; Impact wirkt intermittierend.
  • STP/TCN Storms: Topology Changes in einer MLAG-Domäne sind oft Symptom für Peer-Link oder Konfigdrift.
  • „Nur ein VLAN kaputt“: Sehr häufig: VLAN nicht erlaubt/active auf Peer-Link oder inkonsistente VLAN-Mappings.

Split-Brain: Ursachen, Symptome und saubere Nachweise

Split-Brain ist das Worst-Case-Szenario, weil zwei unabhängige Geräte gleichzeitig denselben logischen Zustand beanspruchen. Der Split-Brain-Schutz ist daher ein Kernbestandteil von MLAG/vPC-Designs. Häufige Ursachen:

  • Peer-Link down, Keepalive up (oder umgekehrt): Je nach Plattform kann das zu „partial connectivity“ führen, die als Split-Brain bewertet wird.
  • Keepalive-Pfad instabil: Paketverlust oder asymmetrische Routen im Keepalive-Netz erzeugen false positives.
  • Control-Plane Overload: CPU/Memory-Probleme verzögern Keepalive/State-Messages; Domäne kippt.
  • Software-Bugs/Version-Mismatch: Split-Brain-Detection oder Role-Election verhält sich fehlerhaft.

High-Signal Nachweise für Split-Brain

  • Rollen-Status: Beide Peers reporten „Primary“ oder „Active“ (plattformabhängig).
  • Peer-Link Status inkonsistent: Ein Peer sieht Peer-Link up, der andere down, oder VLAN-Operational-State unterscheidet sich.
  • MAC-Flapping Logs: dieselben MACs „wandern“ schnell zwischen Peers; häufig mit STP-Events gekoppelt.
  • Consistency-Triggered Suspends: Ports werden automatisch heruntergenommen, um Loops zu verhindern.

Peer-Link Troubleshooting: „Up“ heißt nicht „funktioniert“

Der Peer-Link ist das Rückgrat der MLAG-Domäne. Viele Incidents entstehen, weil der Peer-Link formal „up“ ist, aber funktional nicht das transportiert, was er transportieren muss. Typische Ursachen:

  • Allowed VLANs fehlen: Der Peer-Link trägt nicht alle VLANs/VNIs, die er tragen muss – Ergebnis: VLAN-spezifische Blackholes.
  • Native VLAN/Tagging-Fallen: Native VLAN mismatch kann Control- oder L2-Traffic verfälschen.
  • MTU mismatch: Bei Jumbo/Overlay-Umgebungen können große Control-Messages oder Datenpfade scheitern, obwohl der Link „up“ bleibt.
  • LACP/Port-Channel split: Peer-Link ist selbst ein LAG; Member-Probleme, hashing oder LACP-Timer-Mismatch können Degradation erzeugen.
  • Congestion/Microbursts: Peer-Link ist überlastet; Drops entstehen; Sync wird instabil.

Die schnellste Peer-Link Diagnose in der Praxis

  • VLAN-Oper-State: nicht nur „configured“, sondern „operational“ auf beiden Peers prüfen.
  • Interface Counter: errors/discards/drops am Peer-Link und seinen Membern (IF-MIB Basis: RFC 2863).
  • LACP Status: collecting/distributing auf allen Membern, keine churn-events.
  • MTU End-to-End: Peer-Link MTU muss zum Fabric-Design passen, insbesondere bei VXLAN/EVPN und Jumbo.

Consistency Checks: Schutzmechanismus und häufige Störquelle

Consistency Checks verhindern gefährliche Inkonistenzen, z. B. unterschiedliche VLAN-Listen, STP-Parameter, Port-Channel-Settings oder (plattformabhängig) unterschiedliche L3-Gateway-Parameter. Wenn ein Check fehlschlägt, reagieren Systeme oft hart: Ports werden suspendiert, vPCs werden down genommen oder Traffic wird auf einen Peer gezwungen. Das ist sicher, aber operativ schmerzhaft.

Typische Consistency Violations

  • VLAN/Trunk mismatch: Allowed VLANs oder Native VLAN differieren zwischen Peers oder zwischen Peer-Link und Downstream-vPC.
  • Port-Channel Parameter mismatch: LACP Mode/Timers, Speed/Duplex, MTU, STP settings (je nach Plattform).
  • STP-Parameter mismatch: Root-Placement, Port-Types, Guard-Features inkonsistent.
  • Gateway/Anycast mismatch: unterschiedliche Anycast-GW MAC/IP oder VRF-Parameter führen zu L3-Anomalien.

Warum „Suspend“ oft die richtige Reaktion ist

In vielen MLAG/vPC-Implementierungen ist „suspend“ eine Schutzmaßnahme, um Broadcast-Loops, Duplicate Forwarding oder MAC-Table-Korruption zu verhindern. Im Troubleshooting ist das wichtig: Wenn Ports suspendiert sind, ist das nicht „das Problem“, sondern das Symptom eines Detektors. Die Ursache ist fast immer eine Inkonsistenz oder ein Peer-Link/Keepalive-Thema.

Intermittierende Fehler in MLAG/vPC: Hashing und asymmetrische Pfade

MLAG-Fehler wirken oft „intermittierend“, weil Traffic über Hashing verteilt wird. Wenn nur ein Peer oder nur ein Peer-Link-Member degradiert ist, trifft es nur die Flows, die dort landen. Typische Effekte:

  • Nur einige Sessions brechen: TCP Retransmissions steigen nur bei bestimmten 5-Tuples.
  • Nur bestimmte Ziele betroffen: Wenn ein Peer den ARP/ND-Cache anders füllt oder wenn ein VLAN auf dem Peer-Link fehlt.
  • p99/p999 Probleme: Microbursts auf Peer-Link erzeugen Latenzspitzen, während Durchschnittswerte ok aussehen.

Hier ist Flow Telemetry (NetFlow/IPFIX, sFlow) als „Radar“ sehr wertvoll, um zu sehen, welche Interfaces/Member betroffen sind. IPFIX als Standard ist in RFC 7011 beschrieben.

STP und MLAG/vPC: Root Placement, Loops und TCN Storms

Viele moderne Datacenter fahren EVPN/VXLAN und reduzieren STP, aber STP ist in vielen Access- oder Übergangsszenarien weiterhin relevant. MLAG/vPC interagiert mit STP, weil zwei Geräte logisch als „eine“ Downstream-Verbindung wirken sollen. Typische Fehlerbilder:

  • TCN Storms: Häufige Topology Changes, weil Ports ständig rein/raus gehen (Peer-Link/LACP/Consistency).
  • Root Placement falsch: Wenn Root Bridge unerwartet wechselt, kann Traffic unerwartete Pfade nehmen.
  • Guard Features: BPDU Guard/Root Guard/Loop Guard können Ports err-disable/suspend setzen, wenn die MLAG-Topologie unerwartete BPDUs sieht.

Praktisch: Wenn STP-Logs eskalieren, prüfen Sie zuerst Peer-Link, LACP-churn und Consistency, bevor Sie STP „tunen“.

Toolchain: Was Sie für MLAG/vPC RCA wirklich brauchen

Die effizienteste MLAG/vPC-Diagnose kombiniert wenige Signale, die schnell eine Beweiskette ergeben.

  • Domänenstatus: Role (primary/secondary), peer adjacency, keepalive state, split-brain indicators.
  • Peer-Link Health: LACP state, member counters, VLAN operational state, MTU, queue drops.
  • Consistency Output: welche Checks failing, welche vPCs/MLAGs suspended, welche Parameter differieren.
  • Logs: peer-link events, role changes, consistency violations, MAC flapping, STP events.
  • Gezielte Captures: nur wenn nötig: „Follow the Packet“ zwischen Peers, oder Captures auf dem Peer-Link bei Verdacht auf Drops. Referenzen: tcpdump Manpage und Wireshark Dokumentation.

Mitigation im Incident: Stabilisieren ohne neue Risiken

Wenn MLAG/vPC kippt, brauchen Sie oft schnelle Stabilisierung. Hier ist Vorsicht wichtig: Einige Maßnahmen reduzieren zwar sofort den Impact, erhöhen aber das Risiko für Loops oder Blackholes, wenn die Domäne inkonsistent ist.

  • Peer-Link stabilisieren zuerst: Wenn Peer-Link wirklich kaputt ist, ist das meist die Root Cause. Reparieren/isolieren Sie defekte Member, korrigieren Sie VLAN/MTU, bevor Sie Policies lockern.
  • Split-Brain-Schutz respektieren: Suspend/Disable ist oft ein Schutz. „Force up“ ohne Ursache zu beheben kann Loops erzeugen.
  • Scope begrenzen: Wenn ein einzelner vPC/MLAG betroffen ist, isolieren Sie ihn, statt die ganze Domäne zu ändern.
  • Traffic umleiten: Wenn möglich, Workloads auf den stabilen Pfad verschieben, bis die Domäne wieder konsistent ist.

Runbook-Baustein: MLAG/vPC Troubleshooting in 15 Minuten

  • Minute 0–3: Scope festlegen: Welche vPCs/MLAGs betroffen? Welche VLANs/VRFs? Gibt es Split-Brain-/Role-Change-Events im Zeitfenster?
  • Minute 3–6: Domänenhealth prüfen: peer adjacency, keepalive state, primary/secondary Rollen, split-brain indicators. Sofort prüfen, ob Schutzmechanismen (suspend) aktiv sind.
  • Minute 6–9: Peer-Link Health prüfen: LACP/member-state, errors/discards/drops, VLAN operational state, MTU. „Up“ reicht nicht – funktionale Checks machen.
  • Minute 9–12: Consistency Checks auswerten: Welche Parameter sind inkonsistent? VLAN lists, port-channel settings, STP guards, Anycast GW. Drift vs. Change-Event identifizieren.
  • Minute 12–15: Mitigation: defektes Member isolieren, VLAN/MTU/Tagging korrigieren, Consistency-Drift beheben. Danach verifizieren: vPCs unsuspend, MAC flapping stoppt, Drops sinken, Traffic stabil. Alles dokumentieren (Zeitpunkt, Änderung, Effekt).

Weiterführende Quellen

  • RFC 2863 für Interface-Counter (Errors/Discards) als Basis zur Bewertung von Peer-Link-Degradation
  • IEEE 802.1AX als Referenz für Link Aggregation (LACP), relevant für Peer-Link-LAGs und Member-Churn
  • RFC 7011 für IPFIX/Flow Telemetry zur Eingrenzung intermittierender, hash-bedingter Fehlerbilder
  • tcpdump Manpage und Wireshark Dokumentation für gezielte Captures zur Beweisführung bei Blackholes und Drops im Peer-Link

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

  • Netzwerkdesign & Topologie-Planung

  • Router- & Switch-Konfiguration (Cisco IOS)

  • VLAN, Inter-VLAN Routing

  • OSPF, RIP, EIGRP (Grundlagen & Implementierung)

  • NAT, ACL, DHCP, DNS-Konfiguration

  • Troubleshooting & Netzwerkoptimierung

  • Packet Tracer Projektentwicklung & Dokumentation

  • CCNA Lern- & Praxisunterstützung

Lieferumfang:

  • Konfigurationsdateien

  • Packet-Tracer-Dateien (.pkt)

  • Netzwerkdokumentation

  • Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

 

Related Articles