Site icon bintorosoft.com

vPC/MLAG im Data Center: Split-Brain-Detection und Recovery

vPC/MLAG im Data Center ist für viele Betreiber der Standard, um Server, Storage und Edge-Systeme redundant an zwei Switches anzubinden, ohne Spanning Tree als primären Loop-Mechanismus zu benötigen. Der große Vorteil: ein aktives/aktives Uplink-Bündel (LACP) über zwei physische Geräte hinweg, hohe Verfügbarkeit und meist bessere Auslastung. Die größte operative Gefahr ist allerdings ein Fehlerzustand, der selten auftritt, aber dann besonders teuer wird: Split-Brain. Gemeint ist nicht „ein Link ist down“, sondern ein Zustand, in dem beide MLAG-Peers gleichzeitig glauben, sie seien aktiv und dürften Forwarding für dieselben VLANs/Port-Channels übernehmen – obwohl die Synchronisation zwischen ihnen gestört ist. Die Folge sind MAC-Flapping, duplizierte Frames, Blackholing, Broadcast-/Unknown-Unicast-Spitzen, instabile LACP-Zustände und im schlimmsten Fall ein kompletter L2-Domänenkollaps mit Folgestörungen in EVPN/VXLAN, Routing und Storage-Protokollen. Split-Brain-Detection und Recovery sind deshalb Pflichtbestandteile jedes Data-Center-Runbooks: Sie müssen früh erkennen, ob die Peer-Connectivity und State-Synchronisation intakt ist, und Sie brauchen einen klaren Recovery-Plan, der kontrolliert, welche Seite aktiv bleibt, wie man „safe isolation“ umsetzt und wie man anschließend wieder sauber zusammenführt, ohne einen Second Outage auszulösen. Dieser Leitfaden erklärt praxisnah, wie Split-Brain bei vPC/MLAG entsteht, welche Telemetrie- und Log-Signaturen typisch sind, welche Schutzmechanismen (Peer-Link, Keepalive, Dual-Active-Detection) operativ wirklich helfen und wie eine belastbare Recovery-Checkliste aussieht.

Begriffe: vPC, MLAG und Split-Brain im operativen Kontext

Die Begriffe unterscheiden sich je nach Vendor, das Grundprinzip ist jedoch vergleichbar. MLAG (Multi-Chassis Link Aggregation) beschreibt allgemein die Fähigkeit, einen Port-Channel über zwei physische Switches zu spannen. vPC ist ein Vendor-spezifischer Begriff für ein ähnliches Konzept. Operativ sind drei Elemente entscheidend:

Als Hintergrund zum LACP-Bündelungsprinzip ist RFC 8024 (LACP/Link Aggregation Control Protocol) ein hilfreicher Referenzanker.

Warum Split-Brain so gefährlich ist: typische Auswirkungen auf L2 und darüber

Split-Brain ist deshalb kritisch, weil er das Kernversprechen von MLAG untergräbt: „zwei Geräte verhalten sich wie eines“. Wenn beide Geräte sich nicht mehr wie ein System koordinieren, entstehen widersprüchliche Forwarding-Entscheidungen. Häufige Auswirkungen:

Wie Split-Brain entsteht: die häufigsten Failure Modes

Split-Brain ist selten ein einzelnes Ereignis, sondern häufig eine Kombination aus Link-/Pfadfehlern und falscher Annahme über „wer lebt noch“. Die wichtigsten Ursachenklassen:

Failure Mode 1: Peer-Link down, beide Peers bleiben ansonsten up

Der Klassiker: Der Peer-Link fällt aus (oder wird durch ein Change/Fehlpatch getrennt), während beide Switches weiterhin laufen und weiterhin Upstream-/Downstream-Links haben. Ohne zusätzliche Schutzmechanismen kann jede Seite versuchen, eigenständig weiterzuarbeiten.

Failure Mode 2: Keepalive-Pfad gestört (false failure detection)

Wenn der Keepalive-Pfad nicht zuverlässig ist (z. B. über ein unsicheres Management-Netz, über VRF-Policies oder über ein Segment, das im Incident selbst betroffen ist), kann er einen Peer fälschlich als „tot“ interpretieren. Das kann ungewollte Rollenwechsel oder Schutzaktionen auslösen.

Failure Mode 3: Control-Plane-Überlast (CPU-Spikes) führt zu Heartbeat-/Sync-Lags

Auch wenn Links physisch up sind, kann eine überlastete Control Plane dazu führen, dass Keepalives oder interne State-Syncs verzögert werden. Daraus entstehen temporäre „Split-Brain-like“-Symptome: LACP flapped, MAC moves steigen, und Recovery-Mechanismen werden getriggert.

Failure Mode 4: Asymmetrische Connectivity und Partial Failures

Teilweise Ausfälle sind im Data Center häufiger als komplette Blackouts: Ein Uplink-Bundle verliert Mitglieder, ein Leaf verliert nur einen Spine-Pfad, oder ein VLAN/VRF ist durch Policy betroffen. Diese Partial Failures können dazu führen, dass einer der MLAG-Peers in eine Schutzrolle wechselt, während der andere „normal“ weiterläuft.

Split-Brain-Detection: Signale, die Sie im NOC früh sehen sollten

Split-Brain sollte nicht erst erkannt werden, wenn Kunden Tickets schreiben. Ein modernes Monitoring kann typische Muster frühzeitig sichtbar machen. Wichtig ist die Kombination aus MLAG-spezifischen Zuständen und „Symptom-Telemetrie“ (MAC, BUM, Drops).

Detection 1: MLAG/vPC State – Peer-Link, Keepalive, Role-Status

Detection 2: MAC-Flapping und MAC-Churn

Ein starker Indikator für Split-Brain ist ein plötzlicher Anstieg von MAC move/flap Events zwischen den beiden Peers oder auf Uplinks. Besonders verdächtig: Flaps in hoher Rate, die zeitlich mit Peer-Link/Keepalive-Events korrelieren.

ChurnRate als Frühindikator (MathML)

ChurnRate = mac_move_events+mac_learn_events time_window

Detection 3: BUM-Spikes und Storm-Control-Drops

Detection 4: LACP-Anomalien und Port-Channel Inkonsistenz

Weil MLAG eng mit LACP zusammenhängt, sind LACP-Flags und Member-Status wertvolle Indizien: wenn ein Port-Channel auf einem Peer „up“ ist, auf dem anderen aber nicht, oder wenn der CE (Server/ToR/Firewall) ungleich verteilt, sind das klassische Vorzeichen eines entstehenden Split-Brains oder einer Partial Failure.

Split-Brain-Protection: Was in der Praxis wirklich hilft

Viele Betreiber verlassen sich darauf, dass „das System schon schützt“. In der Praxis hängt die Wirksamkeit stark von Design und Pflege ab. Die folgenden Schutzprinzipien sind besonders relevant:

Schutzprinzip 1: Peer-Link redundant und robust bauen

Schutzprinzip 2: Keepalive über unabhängigen Pfad, aber verlässlich

Schutzprinzip 3: Dual-Active-Detection und klare Isolation-Logik

Moderne MLAG-Implementierungen bieten Mechanismen, um Dual-Active zu erkennen und eine Seite zu isolieren (z. B. durch Port-Suspension oder Forwarding-Block). Entscheidend ist, dass diese Isolation kontrolliert ist und nicht beide Seiten „kappt“.

Recovery-Plan: Split-Brain sicher beheben, ohne einen Second Outage zu erzeugen

Recovery ist der Teil, der in der Praxis am häufigsten schiefgeht. Das Problem: In einem Split-Brain sind Zustände bereits inkonsistent. Ein „einfaches“ Reconnect kann zu einer explosiven Re-Learning-Phase führen (MAC-Storm), oder zu unkontrollierten Rollenwechseln. Deshalb ist ein gestufter Plan wichtig.

Phase 1: Stabilisieren und Scope begrenzen

Phase 2: Safe Isolation – eine Seite kontrolliert „passiv“ machen

Das Kernprinzip im Split-Brain ist: Nicht beide Peers gleichzeitig „rumdoktern“. Sie benötigen einen klaren aktiven Pfad und einen passiven Pfad. Je nach Plattform kann das bedeuten, auf einem Peer bestimmte vPC/MLAG-Port-Channels zu suspendieren oder Downstream-Links zu isolieren, um Dual-Active zu beenden.

Phase 3: Peer-Link/Keepalive wiederherstellen und Konsistenz prüfen

Phase 4: Re-Join kontrolliert (staged) und mit Stabilitätsfenster

Jetzt kommt der kritischste Moment: das Wiederzusammenführen. Um MAC-Stürme zu vermeiden, sollten Sie die Rückkehr schrittweise machen: nicht alle Port-Channels gleichzeitig aktivieren, sondern staged – und dabei MAC-Flapping, BUM und Drops beobachten.

Stabilitätsgate für Re-Join (MathML)

ReJoinSafe ⇐ peer_link_ok ∧ keepalive_ok ∧ mac_move_events≤BaselineBand ∧ bum_rate≤BaselineBand

Phase 5: Post-Validation – beweisen, dass es wirklich stabil ist

Operative Pitfalls: Was bei Split-Brain-Recovery häufig schiefgeht

Validierungs-Checkliste: vPC/MLAG Split-Brain Detection und Recovery (einsatzbereit)

Monitoring: Pflicht-Telemetrie für Split-Brain-Früherkennung

Split-Brain wird am besten verhindert, indem man ihn früh erkennt. Dafür sollten Sie mindestens folgende Signale in Ihre Observability aufnehmen:

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Lieferumfang:

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

 

Exit mobile version