vPC/MLAG im Data Center: Split-Brain-Detection und Recovery

Red Snapper

1 month ago

vPC/MLAG im Data Center ist für viele Betreiber der Standard, um Server, Storage und Edge-Systeme redundant an zwei Switches anzubinden, ohne Spanning Tree als primären Loop-Mechanismus zu benötigen. Der große Vorteil: ein aktives/aktives Uplink-Bündel (LACP) über zwei physische Geräte hinweg, hohe Verfügbarkeit und meist bessere Auslastung. Die größte operative Gefahr ist allerdings ein Fehlerzustand, der selten auftritt, aber dann besonders teuer wird: Split-Brain. Gemeint ist nicht „ein Link ist down“, sondern ein Zustand, in dem beide MLAG-Peers gleichzeitig glauben, sie seien aktiv und dürften Forwarding für dieselben VLANs/Port-Channels übernehmen – obwohl die Synchronisation zwischen ihnen gestört ist. Die Folge sind MAC-Flapping, duplizierte Frames, Blackholing, Broadcast-/Unknown-Unicast-Spitzen, instabile LACP-Zustände und im schlimmsten Fall ein kompletter L2-Domänenkollaps mit Folgestörungen in EVPN/VXLAN, Routing und Storage-Protokollen. Split-Brain-Detection und Recovery sind deshalb Pflichtbestandteile jedes Data-Center-Runbooks: Sie müssen früh erkennen, ob die Peer-Connectivity und State-Synchronisation intakt ist, und Sie brauchen einen klaren Recovery-Plan, der kontrolliert, welche Seite aktiv bleibt, wie man „safe isolation“ umsetzt und wie man anschließend wieder sauber zusammenführt, ohne einen Second Outage auszulösen. Dieser Leitfaden erklärt praxisnah, wie Split-Brain bei vPC/MLAG entsteht, welche Telemetrie- und Log-Signaturen typisch sind, welche Schutzmechanismen (Peer-Link, Keepalive, Dual-Active-Detection) operativ wirklich helfen und wie eine belastbare Recovery-Checkliste aussieht.

Begriffe: vPC, MLAG und Split-Brain im operativen Kontext

Die Begriffe unterscheiden sich je nach Vendor, das Grundprinzip ist jedoch vergleichbar. MLAG (Multi-Chassis Link Aggregation) beschreibt allgemein die Fähigkeit, einen Port-Channel über zwei physische Switches zu spannen. vPC ist ein Vendor-spezifischer Begriff für ein ähnliches Konzept. Operativ sind drei Elemente entscheidend:

Peer-Link: interne Verbindung zwischen den beiden MLAG-Peers für State-Synchronisation (MAC, LACP, VLAN-Status, ggf. STP-Informationen und weitere Control States).
Keepalive/Heartbeat: separater Pfad, der Ausfall von Peer-Link vs. Geräteausfall unterscheiden soll.
Dual-Active-/Split-Brain-Protection: Mechanismen, die verhindern sollen, dass beide Peers gleichzeitig aktiv forwarden, wenn die Synchronisation fehlt.

Als Hintergrund zum LACP-Bündelungsprinzip ist RFC 8024 (LACP/Link Aggregation Control Protocol) ein hilfreicher Referenzanker.

Warum Split-Brain so gefährlich ist: typische Auswirkungen auf L2 und darüber

Split-Brain ist deshalb kritisch, weil er das Kernversprechen von MLAG untergräbt: „zwei Geräte verhalten sich wie eines“. Wenn beide Geräte sich nicht mehr wie ein System koordinieren, entstehen widersprüchliche Forwarding-Entscheidungen. Häufige Auswirkungen:

MAC-Flapping: dieselbe MAC-Adresse wird abwechselnd auf unterschiedlichen Ports/Peers gelernt, wodurch Frames ständig umgelenkt werden.
Duplikate: BUM-Frames (Broadcast/Unknown-Unicast/Multicast) oder sogar Unicast können doppelt an Endpunkte geliefert werden.
Blackholing: Traffic verschwindet, weil die „falsche“ Seite forwardet oder weil LACP/Port-Channels in inkonsistenten Zuständen sind.
Storm-Control/CoPP-Folgestörungen: Schutzmechanismen greifen, droppen legitimen Traffic und verschärfen Kundenimpact.
Upper-Layer-Kaskaden: ARP/ND, Storage-Heartbeat, Routing-Adjacencies oder Overlay-Kontrollflüsse werden instabil.

Wie Split-Brain entsteht: die häufigsten Failure Modes

Split-Brain ist selten ein einzelnes Ereignis, sondern häufig eine Kombination aus Link-/Pfadfehlern und falscher Annahme über „wer lebt noch“. Die wichtigsten Ursachenklassen:

Failure Mode 1: Peer-Link down, beide Peers bleiben ansonsten up

Der Klassiker: Der Peer-Link fällt aus (oder wird durch ein Change/Fehlpatch getrennt), während beide Switches weiterhin laufen und weiterhin Upstream-/Downstream-Links haben. Ohne zusätzliche Schutzmechanismen kann jede Seite versuchen, eigenständig weiterzuarbeiten.

Risiko: beide Seiten forwarden parallel, aber ohne MAC/LACP-Sync.
Typische Trigger: Kabel-/Optikfehler, Port-Channel-Fehlkonfiguration am Peer-Link, Remote Hands Patchfehler.

Failure Mode 2: Keepalive-Pfad gestört (false failure detection)

Wenn der Keepalive-Pfad nicht zuverlässig ist (z. B. über ein unsicheres Management-Netz, über VRF-Policies oder über ein Segment, das im Incident selbst betroffen ist), kann er einen Peer fälschlich als „tot“ interpretieren. Das kann ungewollte Rollenwechsel oder Schutzaktionen auslösen.

Risiko: unnötige Isolation, LACP-Downs, Traffic-Shift, obwohl Peer-Link eventuell noch ok ist.
Typische Trigger: ACL/Firewall-Änderungen, Routing-Change, Management-Netz-Outage.

Failure Mode 3: Control-Plane-Überlast (CPU-Spikes) führt zu Heartbeat-/Sync-Lags

Auch wenn Links physisch up sind, kann eine überlastete Control Plane dazu führen, dass Keepalives oder interne State-Syncs verzögert werden. Daraus entstehen temporäre „Split-Brain-like“-Symptome: LACP flapped, MAC moves steigen, und Recovery-Mechanismen werden getriggert.

Risiko: „Phantom“-Split-Brain bei Broadcast-Storms, Scans oder CoPP-Fehlkonfiguration.
Typische Trigger: L2-Loops im Access, MAC-Table-Exhaustion, überaggressives Polling.

Failure Mode 4: Asymmetrische Connectivity und Partial Failures

Teilweise Ausfälle sind im Data Center häufiger als komplette Blackouts: Ein Uplink-Bundle verliert Mitglieder, ein Leaf verliert nur einen Spine-Pfad, oder ein VLAN/VRF ist durch Policy betroffen. Diese Partial Failures können dazu führen, dass einer der MLAG-Peers in eine Schutzrolle wechselt, während der andere „normal“ weiterläuft.

Risiko: einseitige Reachability und schwer reproduzierbare „nur manche Flows“.
Typische Trigger: ECMP/LAG-Inkonsistenzen, MTU-Mismatch, QoS/Policer-Asymmetrie.

Split-Brain-Detection: Signale, die Sie im NOC früh sehen sollten

Split-Brain sollte nicht erst erkannt werden, wenn Kunden Tickets schreiben. Ein modernes Monitoring kann typische Muster frühzeitig sichtbar machen. Wichtig ist die Kombination aus MLAG-spezifischen Zuständen und „Symptom-Telemetrie“ (MAC, BUM, Drops).

Detection 1: MLAG/vPC State – Peer-Link, Keepalive, Role-Status

Peer-Link Status: Up/Down, LACP-Status, Member-Inkonsistenzen.
Keepalive Status: Loss/Latency/Timeouts; auffällige Flaps sind Warnsignal.
Peer Role: Primary/Secondary (oder Active/Standby) und ob Rollenwechsel stattgefunden haben.
Consistency Checks: VLAN/Port-Channel Consistency, die viele Systeme intern prüfen.

Detection 2: MAC-Flapping und MAC-Churn

Ein starker Indikator für Split-Brain ist ein plötzlicher Anstieg von MAC move/flap Events zwischen den beiden Peers oder auf Uplinks. Besonders verdächtig: Flaps in hoher Rate, die zeitlich mit Peer-Link/Keepalive-Events korrelieren.

ChurnRate als Frühindikator (MathML)

ChurnRate = mac_move_events+mac_learn_events time_window

Interpretation: Hohe ChurnRate bei gleichzeitigem Peer-Link-/Keepalive-Alarm ist ein Split-Brain-Verdacht.
Abgrenzung: Churn kann auch durch L2-Loops oder Host-Mobility entstehen; deshalb Peer-States mitprüfen.

Detection 3: BUM-Spikes und Storm-Control-Drops

Broadcast/Unknown-Unicast Anstieg: deutet auf Learning-Instabilität und Flooding hin.
Storm-Control Hits: wenn Drops plötzlich steigen, kann es ein Symptom von Split-Brain oder Loop sein.
Queue Drops auf Uplinks: Flooding überlastet Uplinks, was wiederum Control Plane stören kann.

Detection 4: LACP-Anomalien und Port-Channel Inkonsistenz

Weil MLAG eng mit LACP zusammenhängt, sind LACP-Flags und Member-Status wertvolle Indizien: wenn ein Port-Channel auf einem Peer „up“ ist, auf dem anderen aber nicht, oder wenn der CE (Server/ToR/Firewall) ungleich verteilt, sind das klassische Vorzeichen eines entstehenden Split-Brains oder einer Partial Failure.

Split-Brain-Protection: Was in der Praxis wirklich hilft

Viele Betreiber verlassen sich darauf, dass „das System schon schützt“. In der Praxis hängt die Wirksamkeit stark von Design und Pflege ab. Die folgenden Schutzprinzipien sind besonders relevant:

Schutzprinzip 1: Peer-Link redundant und robust bauen

Peer-Link als Port-Channel: mehrere physische Links, damit ein einzelnes Patchproblem keinen Split-Brain auslöst.
Separater physischer Weg: wenn möglich getrennte Trassen/Kabelwege, um Shared Risk zu reduzieren.
MTU/QoS konsistent: Peer-Link darf keine abweichenden Policies haben; sonst entstehen Partial Failures.

Schutzprinzip 2: Keepalive über unabhängigen Pfad, aber verlässlich

Unabhängiger Pfad: nicht über denselben Switch/Link laufen lassen wie Peer-Link.
Stabile Erreichbarkeit: Keepalive darf nicht regelmäßig flappen; sonst werden Schutzmechanismen zum Störfaktor.
Security bewusst: notwendige Pakete/Ports erlauben, damit Heartbeats nicht „versehentlich“ gefiltert werden.

Schutzprinzip 3: Dual-Active-Detection und klare Isolation-Logik

Moderne MLAG-Implementierungen bieten Mechanismen, um Dual-Active zu erkennen und eine Seite zu isolieren (z. B. durch Port-Suspension oder Forwarding-Block). Entscheidend ist, dass diese Isolation kontrolliert ist und nicht beide Seiten „kappt“.

Ziel: lieber eine Seite „opfern“ und Stabilität erhalten, als beide aktiv lassen und das Segment zerstören.
Stop-Kriterium: Wenn Dual-Active erkannt, muss der Zustand eindeutig sein, bevor Recovery startet.

Recovery-Plan: Split-Brain sicher beheben, ohne einen Second Outage zu erzeugen

Recovery ist der Teil, der in der Praxis am häufigsten schiefgeht. Das Problem: In einem Split-Brain sind Zustände bereits inkonsistent. Ein „einfaches“ Reconnect kann zu einer explosiven Re-Learning-Phase führen (MAC-Storm), oder zu unkontrollierten Rollenwechseln. Deshalb ist ein gestufter Plan wichtig.

Phase 1: Stabilisieren und Scope begrenzen

Incident-Single-Source-of-Truth: Zeitfenster, betroffene VLANs/Port-Channels, betroffene Dienste dokumentieren.
Peer-State erfassen: Peer-Link/Keepalive/Role-Status, Consistency-Fehler, Suspended Ports.
Symptome sichern: MAC moves, BUM-Raten, Drops, LACP-Events – als Evidence.
Ziel definieren: Welche Seite soll aktiv bleiben (z. B. die mit stabileren Uplinks oder dem Primary-Rollenkonzept)?

Phase 2: Safe Isolation – eine Seite kontrolliert „passiv“ machen

Das Kernprinzip im Split-Brain ist: Nicht beide Peers gleichzeitig „rumdoktern“. Sie benötigen einen klaren aktiven Pfad und einen passiven Pfad. Je nach Plattform kann das bedeuten, auf einem Peer bestimmte vPC/MLAG-Port-Channels zu suspendieren oder Downstream-Links zu isolieren, um Dual-Active zu beenden.

Wichtig: Isolation möglichst am Rand (Downstream) statt global im Core, um Kollateralschäden zu reduzieren.
Wichtig: Änderungen dokumentieren und zeitlich markieren; Recovery muss nachvollziehbar sein.

Phase 3: Peer-Link/Keepalive wiederherstellen und Konsistenz prüfen

Peer-Link zuerst stabil: Link/Port-Channel konsistent, keine Member-Mismatches.
Keepalive stabil: keine Flaps, Latenz/Timeouts unauffällig.
Consistency-Checks grün: VLANs, Port-Channels, Konfigs zwischen Peers konsistent.

Phase 4: Re-Join kontrolliert (staged) und mit Stabilitätsfenster

Jetzt kommt der kritischste Moment: das Wiederzusammenführen. Um MAC-Stürme zu vermeiden, sollten Sie die Rückkehr schrittweise machen: nicht alle Port-Channels gleichzeitig aktivieren, sondern staged – und dabei MAC-Flapping, BUM und Drops beobachten.

Stufe 1: nur Management/Peer-States prüfen, noch keine massiven Downstream-Rejoins.
Stufe 2: wenige, kontrollierte Port-Channels reaktivieren, Telemetrie beobachten.
Stufe 3: restliche Ports schrittweise, mit klaren Stop-Kriterien (z. B. MAC move Spike).

Stabilitätsgate für Re-Join (MathML)

ReJoinSafe ⇐ peer_link_ok ∧ keepalive_ok ∧ mac_move_events≤BaselineBand ∧ bum_rate≤BaselineBand

Phase 5: Post-Validation – beweisen, dass es wirklich stabil ist

LACP stabil: Port-Channels auf beiden Peers konsistent up, keine Member-Flaps.
MAC-Learning stabil: keine fortlaufenden MAC move/flap Events.
Traffic normal: Broadcast/Unknown-Unicast zurück im Normalband, keine Storm-Control-Drops.
Stabilitätsfenster: mindestens 30 Minuten, bei kritischen Systemen länger, bevor Incident geschlossen wird.

Operative Pitfalls: Was bei Split-Brain-Recovery häufig schiefgeht

Zu frühes Reconnect: Peer-Link wird wieder verbunden, obwohl eine Seite noch aktiv „falsch“ forwardet → MAC-Storm.
Beide Seiten gleichzeitig ändern: parallele Aktionen führen zu unklaren Zuständen und schwerer RCA.
Ignorierte Keepalive-Flaps: instabiler Heartbeat triggert wieder Dual-Active-Schutzaktionen.
Unklare Primary/Secondary-Policy: im Incident ist unklar, welche Seite „gewinnen“ soll.
Fehlende Baselines: ohne Normalwerte für MAC moves/BUM ist schwer zu entscheiden, ob es stabil ist.

Validierungs-Checkliste: vPC/MLAG Split-Brain Detection und Recovery (einsatzbereit)

Peer-Link: Port-Channel up, alle Member up, keine Mismatches, MTU/QoS konsistent.
Keepalive: stabil (keine Flaps), unabhängiger Pfad, notwendige Policies erlaubt.
Role/State: Primary/Secondary klar, keine häufigen Rollenwechsel.
Consistency: VLAN-/Port-Channel-Konfiguration konsistent, keine „orphan“/unsicheren Ports unkontrolliert aktiv.
MAC-Flapping: mac_move_events im Baseline-Band, keine Spikes nach Re-Join.
BUM: Broadcast/Unknown-Unicast/Multicast im Normalband, keine Storm-Control-Drops.
LACP: CE sieht Port-Channel stabil, keine Hash-/Member-Anomalien.
Stabilitätsfenster: definierte Zeit ohne Flaps/Drops vor Abschluss.
Dokumentation: Incident-Timeline, Actions, Before/After-Metriken, Root Cause Hypothese und Preventive Actions.

Monitoring: Pflicht-Telemetrie für Split-Brain-Früherkennung

Split-Brain wird am besten verhindert, indem man ihn früh erkennt. Dafür sollten Sie mindestens folgende Signale in Ihre Observability aufnehmen:

Peer-Link State + Member Health: Up/Down, LACP-Flags, Errors, Drops.
Keepalive Health: reachability, RTT/Timeouts, Flap-Zähler.
Role/Consistency Alarme: Rollenwechsel, Consistency-Fail, Dual-Active-Indikatoren.
MAC move/churn: Rate und Top-MACs/Top-Ports, korrelierbar mit Peer-Events.
BUM-Raten: Broadcast/Unknown-Unicast/Multicast, Storm-Control Drops.
CPU/Control-Plane: CPU-Spikes als Auslöser für Heartbeat-Delay (insb. in Storm-Szenarien).

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.