Multi-Tenant-Fabric: Sichere Segmentierung mit VRF + EVPN

Red Snapper

1 month ago

Eine Multi-Tenant-Fabric verlangt sichere Segmentierung, die nicht nur auf dem Papier funktioniert, sondern auch im Betrieb belastbar bleibt: klare Isolation zwischen Mandanten, kontrollierte Kommunikation über definierte Übergänge und ein Troubleshooting-Ansatz, der bei Incidents nicht im Chaos endet. In modernen Data-Center-Architekturen ist dafür die Kombination aus VRF und EVPN besonders etabliert. VRFs schaffen logische Routing-Isolation (Layer 3) und trennen Adressräume, Policies und Default-Routen sauber voneinander. EVPN liefert dazu die skalierbare Control Plane, um Layer-2- und Layer-3-Informationen (MACs, IP-Bindings, Präfixe) gezielt zu verteilen, statt große Broadcast-Domänen durch Flooding zu betreiben. Das Ergebnis ist eine Multi-Tenant-Fabric, die sowohl performant als auch operativ beherrschbar ist: weniger BUM-Traffic (Broadcast/Unknown-Unicast/Multicast), weniger Blast Radius bei Störungen und eine klare Fault-Domain-Trennung zwischen Underlay und Overlay. Gleichzeitig entstehen neue operative Risiken: falsche Route Targets führen zu „unsichtbaren“ Segmenten, MTU-Mismatches im Underlay verursachen mysteriöse Drops, und schlecht definierte „Shared Services“ können unbemerkt Isolation aushebeln. Dieser Ops-orientierte Leitfaden zeigt, wie sichere Segmentierung mit VRF + EVPN in der Praxis aufgebaut wird: vom Grundmodell über Designentscheidungen (L2VNI/L3VNI, RT/RD, Anycast Gateway) bis zu Guardrails, Monitoring und einer Validierungs-Checkliste, die für Go-Live und nach Changes direkt einsetzbar ist.

Warum VRF + EVPN das Standardmuster für Multi-Tenant-Fabrics ist

Multi-Tenant bedeutet im Kern: Ein Fabric transportiert mehrere logische Netze, die sich gegenseitig nicht beeinflussen dürfen. Klassische VLAN-Segmentierung skaliert hier nur begrenzt, weil sie Layer 2 groß macht und damit Flooding, MAC-Learning und Loop-Risiken verstärkt. VRF + EVPN adressiert genau diese Schwächen.

VRF als harte L3-Isolation: getrennte Routing-Tabellen pro Tenant, getrennte Policies, getrennte Next-Hops.
EVPN als skalierbare Control Plane: gezielte Verteilung von Segment- und Host-Informationen, weniger Flooding, bessere Observability.
VXLAN/Overlay als Transport: viele Segmente ohne riesige L2-Domänen, mit konsistentem Mapping (VNI pro Segment).

Als technische Grundlage für EVPN dient RFC 7432 (EVPN), für VXLAN RFC 7348 (VXLAN) und für Architekturhinweise in EVPN/VXLAN-Overlays RFC 8365.

Grundmodell: Underlay, Overlay, Tenant und Shared Services

Ein sauberes Multi-Tenant-Design beginnt mit einem eindeutigen Modell. Drei Ebenen sollten organisatorisch und technisch getrennt sein:

Underlay: IP-Transportnetz, das VTEPs verbindet (IGP/BGP, ECMP, MTU, Convergence).
Overlay: EVPN-Control-Plane und VXLAN-Data-Plane, die Segmente/VRFs über VNIs transportieren.
Tenant-Ebene: VRFs, L2VNIs (Bridge-Domains) und L3VNI (VRF-Overlay) pro Mandant.

Zusätzlich gibt es fast immer Shared Services (z. B. DNS, NTP, Logging, Jump Hosts, PKI, zentrale Firewalls/LBs). Shared Services sind operativ die häufigste Ursache für unbeabsichtigte Entsegmentierung, wenn sie nicht als eigenes Zonenmodell behandelt werden.

VRF: Was sie isoliert und was nicht

Eine VRF trennt Routing-Tabellen. Das heißt: Zwei Tenants können die gleichen IP-Adressräume nutzen, ohne sich zu sehen, solange keine Route-Leaks oder gemeinsamen Gateways existieren. VRF-Isolation ist stark, aber nicht automatisch „End-to-End“, wenn Sie gemeinsame Layer-2-Domänen oder gemeinsame Services falsch anbinden.

Isoliert: Routing, Default-Route, L3-Adjacencies, Prefix-Visibility.
Nicht automatisch isoliert: Layer-2-Segmente, wenn diese versehentlich in derselben Bridge-Domain/VNI landen; außerdem gemeinsame Services, wenn sie „flat“ angebunden werden.
Operativer Fokus: Route-Leaks, Shared Services, Anycast Gateway, Policy Enforcement.

EVPN: Warum es für Segmentierung und Ops wichtig ist

EVPN ist die Control Plane, die festlegt, welche MACs, IP-Bindings und Präfixe wohin gehören. In Multi-Tenant-Fabrics ist das essenziell, weil es die Segmentierung nicht nur „topologisch“, sondern „intent-basiert“ macht: Routen werden nur dort sichtbar, wo sie importiert werden dürfen (Route Targets). Gleichzeitig ist EVPN der Schlüssel zur Fehlersuche, weil es klare Indikatoren liefert (Route Types, RT-Import, Next Hop).

Route Types, die für Multi-Tenant-Segmentierung relevant sind

Type 2 (MAC/IP Advertisement): Host-Reachability im L2VNI, Bindings für ARP/ND-Suppression.
Type 3 (Inclusive Multicast Ethernet Tag): BUM-Verteilung (Flooding-Mechanik im Overlay).
Type 5 (IP Prefix): L3-Routen in VRFs, entscheidend für Inter-Subnet/Inter-VRF-Designs.

L2VNI und L3VNI: Segmentierung auf zwei Achsen

In EVPN/VXLAN-Designs wird Segmentierung typischerweise über VNIs umgesetzt:

L2VNI: repräsentiert eine Bridge-Domain (ähnlich einem VLAN-Segment) für Layer-2-Connectivity.
L3VNI: repräsentiert die VRF selbst (Routing-Kontext im Overlay) und dient als Transport für L3-Routen (Type 5) und oft für zentrale Routing-Interaktionen.

Für sichere Multi-Tenant-Segmentierung gilt als Faustregel: Ein Tenant = mindestens eine VRF = eine L3VNI, plus pro Tenant die benötigten L2VNIs (z. B. App, DB, Mgmt). Jede „Vermischung“ von L2VNIs über Tenants hinweg ist ein potenzieller Isolation-Bruch.

Tenant-Mapping als einfache Relation (MathML)

Tenant → VRF → L3VNI , Tenant → {L2VNI}

RD/RT: Der wichtigste Sicherheitshebel im EVPN-Overlay

Route Distinguisher (RD) sorgt für Eindeutigkeit, Route Target (RT) steuert Sichtbarkeit. Für Multi-Tenant-Fabrics ist RT das zentrale Sicherheits- und Operations-Element, weil es Import/Export pro VRF und pro Segment kontrolliert. Der häufigste Fehler im Betrieb ist nicht „BGP down“, sondern „RT falsch“: Der Tenant sieht plötzlich fremde Routen oder sieht eigene Routen nicht.

RT zu breit: unbeabsichtigter Route-Leak → Tenant-Isolation gebrochen.
RT zu eng: Segment „unsichtbar“ → Connectivity bricht, obwohl Underlay ok ist.
Best Practice: RTs pro Tenant und pro Shared-Service-Zone explizit definieren, nicht „global“ reuse ohne Governance.

Anycast Gateway: Komfort und Risiko im Multi-Tenant-Betrieb

Anycast Gateway (gleiche Gateway-IP/MAC auf mehreren Leafs) ist in Fabrics beliebt, weil es die Default-Gateway-Nähe für Hosts verbessert und Failover vereinfacht. Operativ bringt es aber zwei Aufgaben:

Tenant-Korrektheit: Anycast Gateway muss im richtigen VRF-Kontext liegen; ein falsches Mapping kann Tenant-Traffic falsch terminieren.
ARP/ND-Suppression: Bindings und Policies müssen konsistent sein, sonst entstehen stale Gateways oder falsche Auflösungen.

Sichere Segmentierung: Designprinzipien, die sich in der Praxis bewähren

Die folgenden Prinzipien sind in Multi-Tenant-Fabrics besonders wirksam, weil sie sowohl Sicherheit als auch Betrieb vereinfachen.

Prinzip 1: Kleine Fault Domains durch klare Tenant- und Zone-Struktur

Pro Tenant mehrere Zonen: z. B. Frontend, App, DB, Mgmt – jeweils eigene L2VNI, gleiche VRF.
Keine Shared L2-Domänen: Shared Services über L3 und Policies anbinden, nicht über gemeinsame VLANs.
Explizite Übergänge: Inter-Zone-Traffic nur über definierte Policy Points (Firewall, ACL, Service-Insertion).

Prinzip 2: Shared Services als eigene VRF oder kontrollierte Route-Leaks

Shared Services sind operativ gefährlich, wenn sie „irgendwo“ im Fabric hängen und dann via Default-Routen oder zu breiten RTs erreichbar werden. Sicherer ist:

Shared-Services-VRF: eigene VRF mit klaren RTs; Tenants importieren nur, was sie wirklich brauchen.
Route-Leaks minimalistisch: nur konkrete Präfixe (Type 5) leaken, nicht ganze VRFs pauschal verbinden.
Policy Enforcement: Leaks nicht als „vertrauenswürdig“ ansehen; Zugriff über Firewall/ACLs kontrollieren.

Prinzip 3: Fail-Closed vs. Fail-Open bewusst entscheiden

Segmentierung ist Sicherheitsfunktion. Bei Ausfällen ist die Frage: Soll der Traffic im Zweifel blockieren (Fail-Closed) oder am Service vorbei laufen (Fail-Open)? Beide Optionen haben legitime Einsatzzwecke, müssen aber dokumentiert und getestet sein.

Fail-Closed: bevorzugt für Security-zwingende Pfade (Compliance, sensible Tenants).
Fail-Open: manchmal sinnvoll für Betriebsservices (z. B. Monitoring), wenn Availability Vorrang hat.

Operative Pitfalls in Multi-Tenant-Fabrics

Die meisten Incidents in Multi-Tenant-Fabrics entstehen nicht durch „EVPN an sich“, sondern durch inkonsistente Implementierung. Diese Pitfalls sollten in jedem Ops-Runbook stehen.

Pitfall 1: RT-Mismatch führt zu „unsichtbaren“ Segmenten

Symptom: Underlay ok, BGP EVPN up, aber ein Tenant sieht seine eigenen Segmente nicht.
Typischer Auslöser: Change an RT-Policy, neues Tenant-Onboarding, Copy/Paste-Fehler.
Mitigation: RT-Import/Export prüfen, Type-2/Type-5 Route Counts vergleichen, staged rollback.

Pitfall 2: MTU Underlay vs. Overlay erzeugt mysteriöse Drops

Symptom: kleine Pakete ok, große Flows brechen ab, Retransmissions steigen.
Root Cause: Underlay-MTU nicht konsistent für VXLAN-Encapsulation; PMTUD-ICMP blockiert.
Mitigation: Underlay-MTU durchgehend erhöhen, notwendige ICMP-Typen für PMTUD zulassen.

Für PMTUD sind RFC 1191 (IPv4 PMTUD) und RFC 8201 (IPv6 PMTUD) nützlich.

Pitfall 3: Shared Services als „Abkürzung“ brechen Isolation

Symptom: Tenant kann unerwartet andere Tenants erreichen oder sieht fremde DNS/LDAP/Repo-Services.
Root Cause: zu breite Route-Leaks, gemeinsame L2-Domänen, falsch gesetzte Default-Routen.
Mitigation: Shared-Services-VRF etablieren, Prefix-Leaks minimalisieren, Policies auditieren.

Pitfall 4: ARP/ND Suppression erzeugt stale Bindings

Symptom: einzelne Hosts blackholed nach Mobility/Failover, ARP/ND wirkt inkonsistent.
Root Cause: Type-2 Bindings stale, Multihoming/DF-Events, Teilimport von Routen.
Mitigation: Mobility-Events prüfen, Type-2 Distribution und RT-Policies verifizieren, Multihoming-State prüfen.

Ops-Workflow: Multi-Tenant-Probleme in Minuten richtig einordnen

Ein praxistauglicher Troubleshooting-Flow trennt Underlay, Overlay und Tenant-Policy konsequent. So vermeiden Sie, im Incident „überall gleichzeitig“ zu suchen.

Schritt: Scope definieren

Welcher Tenant/VRF? Name, L3VNI, betroffene L2VNIs.
Welche Richtung? Intra-VRF, Inter-VRF (Route-Leak), zu Shared Services, Nord-Süd.
Welche Symptome? nur große Pakete, nur ARP/ND, nur bestimmte Hosts, nur nach Failover?

Schritt: Underlay-Health als Gate

VTEP Reachability: VTEP/Loopback-IPs erreichbar, keine Flaps.
MTU/PMTUD: Overhead berücksichtigt, keine Drops/Fragmentation-Indizien.
ECMP/LAG: Member-Links stabil, keine Queue-Drops-Spikes.

Schritt: Overlay-Control-Plane prüfen

EVPN Sessions stabil: keine Flaps, keine ungewöhnlichen Withdraw-Spikes.
RT-Import/Export: Tenant-RTs korrekt, Shared-Services-RTs kontrolliert.
Route Types: Type 2 für Host-Reachability, Type 5 für Prefix-Leaks/VRF-Routing, Type 3 für BUM falls relevant.

Schritt: Tenant-Policy und Service Insertion prüfen

Inter-VRF-Pfade: existieren definierte Policy Points (Firewall) oder direkte Leaks?
Symmetrie: bei Firewalls/LBs muss Hin-/Rückweg konsistent sein.
Failover-Verhalten: Fail-Closed/Fail-Open entspricht der Designentscheidung.

Validierungs-Checkliste: Sichere Segmentierung vor Go-Live und nach Changes

Tenant-Intent dokumentiert: VRF, L3VNI, L2VNIs, Anycast Gateway, erlaubte Flüsse, Shared Services.
RT-Governance: eindeutige RTs pro Tenant/Zone, kein unkontrolliertes Reuse, Change-Prozess vorhanden.
Underlay-MTU konsistent: VXLAN-Headroom überall, PMTUD-ICMP gezielt erlaubt.
EVPN Route Types plausibel: Type-2/Type-5 Counts entsprechen Erwartung, keine „leeren“ Tenants, keine fremden Imports.
Shared Services kontrolliert: Shared-Services-VRF, nur notwendige Prefix-Leaks, Policies geprüft.
Failover getestet: Link/Node-Fail, Recovery, keine Route-Leaks nach Failover, keine BUM-Spikes.
Observability aktiv: Telemetrie und Alarme für RT-Änderungen, Route-Counts, MTU-Indizien, BUM-Spikes.

Isolation als überprüfbare Eigenschaft (MathML)

IsolationOK ⇐ ImportedRTs_tenantA ∩ ExportedRTs_tenantB = ∅

Interpretation: Tenant A darf keine RTs importieren, die Tenant B exportiert, außer dort, wo es bewusst (und dokumentiert) Shared Services oder kontrollierte Leaks gibt.

Monitoring: Pflicht-Telemetrie für Multi-Tenant-Segmentierung

Eine sichere Segmentierung ist nur dann betriebssicher, wenn sie kontinuierlich überprüfbar ist. Für Ops haben sich folgende Signale bewährt:

RT-Änderungen: Audit-Logs, Drift-Detection, Alarm bei unerwarteten RT-Mappings.
EVPN Route Counts: Type-2 und Type-5 pro VRF/EVI als Trend (Spikes/Drops sind frühe Warnsignale).
MAC Mobility/Churn: hohe Move-Raten können auf Multihoming-Instabilität oder Loops am Rand hindeuten.
BUM-Raten: Broadcast/Unknown-Unicast/Multicast pro Segment; hoher BUM deutet auf fehlende Bindings oder Fehler in BUM-Steuerung hin.
Underlay Health: VTEP Reachability, MTU-/Drop-Indizien, ECMP/LAG Member-Status.
Service Insertion Health: wenn Firewalls/LBs Teil des Sicherheitsmodells sind: Session-Drops, Throughput, Health Checks, Symmetrie-Indikatoren.

Evidence Pack: Standarddaten für Segmentierungs-Incidents

Zeitfenster (UTC): Start, Peak, Fix, Stabilitätsfenster.
Tenant Scope: VRF/L3VNI, betroffene L2VNIs, betroffene VTEPs.
RT/Policy: relevante RTs, Import/Export-Status, Change-Diff.
Route Types: Presence/Counts von Type 2/3/5, Next Hop Plausibilität.
Underlay: MTU/PMTUD-Indizien, Drops, ECMP/LAG-Status.
Symptome: BUM-Spikes, Unknown Unicast, MAC move/churn, ARP/ND-Anomalien.
Shared Services: welche Leaks/Policies greifen, ob unerwartete Sichtbarkeit bestand.

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.