PE-CE Topologie: Static, BGP, OSPF – Entscheidungslogik

Red Snapper

3 months ago

Die PE-CE Topologie ist im Provider- und Telco-Umfeld der Punkt, an dem ein Kundennetz (Customer Edge, CE) auf das Provider-Netz (Provider Edge, PE) trifft – und damit der Ort, an dem sich Stabilität, Sicherheit, Betriebskosten und Skalierbarkeit sehr konkret entscheiden. Besonders in L3VPN-, Internet-Access- und Enterprise-Connectivity-Szenarien stellt sich immer wieder die gleiche Frage: Soll die PE-CE-Anbindung statisch geroutet werden, oder nutzt man dynamische Protokolle wie BGP oder OSPF? Jede Option hat klare Stärken und typische Fallstricke. Static Routing wirkt simpel und kontrolliert, kann aber bei Wachstum oder Redundanz schnell unübersichtlich werden. BGP ist das flexibelste Werkzeug für Policy und Skalierung, bringt jedoch höhere Komplexität, mehr Kontrollplane-State und ein striktes Hygiene-Bedürfnis mit. OSPF kann in bestimmten Enterprise-Integrationen elegant sein, birgt aber Risiken bei Domänengrenzen, bei Leaks und bei unkontrolliertem Routenwachstum. Ein professionelles Design betrachtet die Wahl daher nicht als Geschmackssache, sondern als Entscheidungslogik entlang von Kriterien wie Prefix-Anzahl, Failover-Anforderungen, Betriebsmaturity, Security Domains, Troubleshooting und Automatisierung. Dieser Artikel liefert eine praxisnahe Entscheidungslogik, wie Sie Static, BGP oder OSPF in der PE-CE Topologie sinnvoll auswählen, welche Topologie-Patterns sich bewährt haben und wie Sie Routing-Chaos an der Kundengrenze vermeiden.

PE-CE Schnittstelle im Kontext: Was genau wird hier entschieden?

Am PE-CE Übergang wird nicht nur „eine Route“ ausgetauscht, sondern ein Betriebsvertrag umgesetzt: Welche Netze dürfen in die Provider-VRF? Welche Netze dürfen zum Kunden zurück? Wie schnell soll Failover funktionieren? Welche Policies gelten für Traffic Engineering, QoS, Security und ggf. Service-Chaining? In L3VPN-Umgebungen ist die PE-CE Kopplung außerdem direkt an Mandantentrennung (VRF), Route-Targets und Import/Export-Policies gekoppelt. Ein zu offenes PE-CE Routing kann zu Route-Leaks führen; ein zu restriktives Design kann Betrieb und Skalierung unnötig teuer machen.

Routenumfang: Wie viele Präfixe werden vom Kunden in den Provider übertragen und umgekehrt?
Redundanz: Single-Homed, Dual-Homed, Multi-Site – und wie soll Failover aussehen?
Policy: Benötigt der Kunde Traffic-Steuerung, unterschiedliche Pfadpräferenzen oder selective Reachability?
Operationalisierung: Wie werden Changes ausgerollt, validiert und im Incident entstört?

Leitprinzip: PE-CE ist eine Domänengrenze, kein „internes Interface“

Auch wenn ein Kunde „nah“ am Provider arbeitet, bleibt PE-CE eine Vertrauens- und Fehlergrenze. Das Design sollte davon ausgehen, dass Fehlkonfigurationen passieren und dass Routenwachstum sowie Flapping begrenzt werden müssen.

Static Routing: Wann statisch die beste Wahl ist

Statisches Routing ist im Provider-Umfeld keineswegs „unprofessionell“. Es ist oft die beste Wahl, wenn die Routenanzahl klein, die Topologie stabil und die Policy-Anforderungen gering sind. In vielen Access- und kleineren Enterprise-Anbindungen ist Static Routing robust und extrem vorhersehbar. Der Preis ist Skalierung: Jede Änderung erfordert manuelle oder automatisierte Anpassungen, und Redundanzmuster (Dual-Homing) können schnell komplex werden, wenn keine klaren Standards existieren.

Ideal bei wenigen Präfixen: z. B. Default Route zum Kunden und 1–3 Kundennetze zurück zum Provider.
Hohe Vorhersehbarkeit: Keine dynamischen Updates, keine unerwarteten Routen.
Geringer Control-Plane-Overhead: Keine Nachbarschaften, keine Keepalives, geringe CPU-Last.
Einfacher Security-Schnitt: Explizite erlaubte Netze statt „Protokoll verteilt alles“.

Static Routing skaliert nur mit Templates

In großen Netzen funktioniert Static Routing nur dann gut, wenn es standardisiert ist: feste Konventionen für Default/Null Routes, feste Namings, klare Dokumentation, Automatisierung und Guardrails (z. B. maximale Anzahl statischer Routen pro Site). Sonst entsteht „Static-Sprawl“.

Static Routing in Redundanz-Topologien: Die typischen Stolpersteine

Sobald der Kunde dual-homed ist (zwei CEs oder zwei Links), muss Static Routing sorgfältig geplant werden. Ohne dynamisches Protokoll müssen Pfadwechsel über Mechanismen wie Tracking, IP SLA/BFD-ähnliche Überwachung oder über FHRP-/ECMP-Designs am Kunden erfolgen. Der Provider will dabei vermeiden, dass im Fehlerfall Blackholes entstehen oder dass beide Pfade gleichzeitig aktiv werden, obwohl der Kunde nur einen will.

Primär/Backup: Statische Routen mit unterschiedlichen Präferenzen und zuverlässigem Link-Tracking.
ECMP statisch: Nur sinnvoll, wenn der Kunde symmetrische Pfade toleriert und Statefulness (Firewalls/NAT) berücksichtigt ist.
Blackhole Prevention: Null Routes oder Summary-Designs, damit Failover nicht unerreichbare Teilnetze „vortäuscht“.
Operational Tests: Failover muss getestet werden, weil statische Designs Fehler gerne „still“ maskieren.

Faustregel: Static + Dual-Homing ist möglich, aber diszipliniert

Wenn Redundanz ein Muss ist und der Kunde häufig Änderungen hat, kippt die Kosten-Nutzen-Rechnung oft zugunsten eines dynamischen Protokolls. Static bleibt dann nur sinnvoll, wenn das Design stark standardisiert und automatisiert ist.

BGP als PE-CE Protokoll: Standard für Skalierung und Policy

BGP ist in Provider-Netzen das dominierende Protokoll an der Kundengrenze, wenn Skalierung, Policy und saubere Domänentrennung wichtig sind. BGP ist besonders stark, weil es nicht nur Reachability austauscht, sondern auch Policies erlaubt: Präferenzsteuerung, selective Advertisement, Communities, AS-Path-Mechanismen und klare Filtermodelle. Außerdem skaliert BGP gut mit vielen Präfixen und mit Multi-Site-/Multi-Homing-Szenarien.

Policy-Fähigkeit: Präfixe gezielt steuern, bevorzugen oder begrenzen.
Skalierung: Viele Präfixe und viele Sites lassen sich konsistenter betreiben als mit Static.
Saubere Domänengrenze: BGP ist gut geeignet, Kundendomänen klar vom Provider zu trennen.
Standardisierung: Templates für Filter, Max-Prefix, Communities und Defaults sind sehr gut möglich.

BGP ist nur so gut wie Route Hygiene

Die größte Stärke von BGP – Flexibilität – ist auch sein Risiko. Ohne strikte Import/Export-Filter, Max-Prefix, Route Dampening/Flap-Handling (wo sinnvoll) und klare Default-deny-Policies können Route-Leaks oder unkontrolliertes Wachstum entstehen.

BGP-Designentscheidungen an der PE-CE Kante

Wer BGP nutzt, muss einige Kernentscheidungen treffen: Wird nur Default zum Kunden announced oder Full/Partial? Werden Kundennetze aggregiert? Welche Communities/Tags werden verwendet? Wie wird Failover umgesetzt (Active/Active, Active/Standby)? Und wie verhindern Sie, dass ein Kundenfehler das Provider-Netz belastet?

Default vs. Teilrouting: Viele Enterprise-Kunden brauchen nur Default + wenige Servicepräfixe; Full Tables am CE sind selten nötig.
Max-Prefix: Harte Grenze, um Fehlkonfigurationen und Leaks zu stoppen.
Filtering: Prefix-Lists/Route-Policies pro Kunde oder pro Produktklasse, idealerweise als Template.
Failover-Mechanik: Local Preference/Weight/Community-Steuerung auf Provider-Seite, ggf. AS-Path/Pref-Steuerung auf Kundenseite.

Active/Active erfordert Symmetrie-Bewusstsein

Wenn beide Pfade gleichzeitig genutzt werden, müssen stateful Services (Firewalls, NAT, IPSec, Session-Tracking) berücksichtigt werden. In vielen Fällen ist Active/Standby betrieblich robuster, auch wenn es Kapazität weniger effizient nutzt.

OSPF als PE-CE Protokoll: Wann es sinnvoll ist (und wann nicht)

OSPF wird an der PE-CE Kante vor allem dann eingesetzt, wenn der Kunde stark OSPF-zentriert ist und eine „native“ Integration wünscht – etwa weil viele Standorte bereits OSPF sprechen und man L3VPN wie eine Erweiterung des Kundennetzes behandeln möchte. OSPF kann in diesen Szenarien gut funktionieren, ist aber riskanter als BGP, weil OSPF als IGP stärker auf interne Domänen ausgelegt ist. Ohne klare Grenzen kann OSPF zu unerwünschter Topologie-Kopplung, zu Route-Churn und zu Troubleshooting-Komplexität führen.

Gute Passung: Kunde nutzt OSPF konsistent und möchte dynamische Erreichbarkeit ohne BGP-Kompetenz.
Schnelle Konvergenz möglich: OSPF kann schnell reagieren, wenn Timer/Design sauber sind.
Risiko von Domänenvermischung: OSPF fühlt sich „intern“ an; Boundary muss hart umgesetzt werden.
Scaling-Risiken: Viele Präfixe und häufige Changes können LSDB/CPU belasten.

OSPF gehört an eine klar definierte Abgrenzung

Wenn OSPF eingesetzt wird, sollte der Provider die OSPF-Domäne streng terminieren: klare Areas, klare Redistribution-Regeln, strikte Filter und Limits. Ohne diese Leitplanken wird OSPF schnell zur Quelle von Routing-Drift.

Redistribution und Default-Modelle: Der häufigste Fehlerpunkt bei OSPF

Das zentrale Problem bei OSPF an der PE-CE Kante ist nicht das Protokoll selbst, sondern Redistribution: Welche Routen werden in welche Richtung redistribuiert? Werden Defaults sauber injiziert? Werden externe Routen markiert und begrenzt? Ein unkontrolliertes Redistribution-Design kann Loops und „Route Feedback“ erzeugen, insbesondere in Multi-Site-Szenarien mit mehreren PEs.

Default Injection: Klare, kontrollierte Default-Policy statt „viele Externals“ zum Kunden.
Externals begrenzen: Anzahl und Typ (E1/E2) bewusst wählen, um Pfadwahl nachvollziehbar zu halten.
Tagging/Loop Prevention: Routen markieren und Rückinjektion verhindern.
Area-Design: Häufig ist ein Stub-/NSSA-ähnliches Design sinnvoll, um Externals zu kontrollieren.

Wenn Sie Redistribution nicht gerne erklären, nutzen Sie lieber BGP

OSPF-Redistribution ist fehleranfällig, wenn Prozesse, Tools und Erfahrung fehlen. BGP bietet hier oft die klarere, auditierbarere Policy-Oberfläche.

Entscheidungslogik: Static vs. BGP vs. OSPF anhand stabiler Kriterien

Eine robuste Entscheidung entsteht, wenn Sie die Wahl entlang weniger, stabiler Kriterien treffen und diese Kriterien in Blueprints übersetzen. So vermeiden Sie, dass jede Kundenanbindung zur Einzelfalldebatte wird.

Prefix-Anzahl und Wachstum: wenige, stabile Netze → Static; viele oder wachsend → BGP; OSPF nur mit klaren IGP-Grenzen.
Policy-Bedarf: starke Pfadsteuerung, Communities, selective Reachability → BGP.
Redundanz und Multi-Site: komplexe Redundanz → BGP; Static nur mit starkem Template/Tracking; OSPF riskanter wegen Redistribution.
Operational Reife: Wenn BGP-Templates, Filters und Monitoring etabliert sind, ist BGP oft am betriebssichersten.
Security/Compliance: Minimale erlaubte Routen und klare Auditability sprechen für Static oder strikt gefiltertes BGP.

Eine einfache Startregel für Provider

Wenn Sie nur einen Default und wenige statische Netze brauchen: Static. Wenn Sie Wachstum, mehrere Sites oder Policies erwarten: BGP. OSPF nur, wenn es einen klaren Kundengrund gibt und Redistribution/Boundary-Design beherrscht wird.

Topologie-Patterns: Single-Homed, Dual-Homed, Multi-Site und was das Protokoll ändert

Die PE-CE Topologie beeinflusst die Protokollwahl massiv. Ein Single-Homed CE kann fast immer mit Static oder einfachem BGP sauber betrieben werden. Dual-Homing und Multi-Site erzeugen dagegen Anforderungen an deterministisches Failover, Pfadpräferenzen und Loop-Prevention, die mit BGP meist am klarsten umsetzbar sind.

Single-Homed: Static (Default + Summary) oder eBGP mit minimaler Policy.
Dual-Homed (same PoP): eBGP zu zwei PEs mit klarer LocalPref/Community-Logik; alternativ Static mit Tracking.
Dual-Homed (different PoPs/Regions): BGP praktisch Standard, um Failover und Traffic-Engineering kontrolliert zu gestalten.
Multi-Site VPN: BGP mit konsistenten Policies und ggf. Route Aggregation pro Site, um Churn zu begrenzen.

Failure Domains bewusst halten

Ein wichtiger Vorteil von BGP ist, dass Sie Failover-Domänen klar schneiden können (z. B. pro Region/PoP). OSPF kann diese Grenzen verwischen, wenn Area-/Redistribution-Design nicht streng ist.

Security und Guardrails an der PE-CE Kante

Unabhängig vom Protokoll braucht die PE-CE Kante Guardrails. Hier passieren die teuersten Fehler: Route Leaks, zu viele Präfixe, Flapping, falsche Defaults. Ein professionelles Design implementiert Schutzmechanismen als Standard, nicht als „wenn es mal schiefgeht“.

Default-deny: Nur erwartete Präfixe zulassen; alles andere verwerfen.
Max-Prefix: Hartes Limit pro CE/BGP-Session oder pro OSPF-Redistribution, mit klaren Alarmen.
Rate-Limits/Control-Plane Schutz: Schutz vor Flap-Stürmen und CPU-Spikes.
Logging/Audit: Änderungen an Policies und Prefix-Listen versionieren und nachvollziehbar machen.

Guardrails sind OPEX-Reduktion

Je früher ein Leak oder eine Fehlkonfiguration gestoppt wird, desto kleiner ist der Incident. Max-Prefix und Default-deny sind daher nicht „paranoid“, sondern wirtschaftlich.

Operationalisierung: Monitoring, Troubleshooting und „explainable routing“

Die beste PE-CE Entscheidung ist die, die Sie im Incident erklären können. Static ist leicht zu erklären, BGP ist erklärbar mit guter Policy-Disziplin, OSPF wird erklärbar, wenn Redistribution streng modelliert ist. Operationalisierung bedeutet: definierte Telemetry, Runbooks, und klare Change-Prozesse.

Für Static: Route-Existenz und Tracking-Status überwachen, Failoverpfade testen, Konfigurationsdrift verhindern.
Für BGP: Session-Health, Prefix-Counts, Policy-Hits, Route-Changes und Flap-Events messen.
Für OSPF: Neighbor-Health, LSDB-Größe, External-Routenanzahl, Redistribution-Events und Tags überwachen.
Change-Korrelation: Routing-Änderungen mit Kundentickets, Wartungen und Performance-KPIs korrelieren.

Policy-as-Code als Stabilitätsfaktor

Gerade bei BGP (und auch bei OSPF-Redistribution) lohnt sich ein Template-Ansatz: gleiche Kundentypen bekommen gleiche Policies, reviewed und getestet. So sinkt die Wahrscheinlichkeit von Sonderfallfehlern.

Praxis-Leitlinien: Entscheidungslogik als Blueprint für PE-CE

Static als Standard für klein: Default + wenige Präfixe, klare Tracking-Regeln, keine Sonderpfade ohne Dokumentation.
BGP als Standard für Wachstum: Mehr Präfixe, Multi-Site, Policies, klare Filter/Max-Prefix, konsistente Communities.
OSPF nur mit Disziplin: Wenn kundenseitig nötig, dann mit klaren Areas, strikter Redistribution, Tagging und Limits.
Redundanz bewusst wählen: Active/Standby ist oft betrieblich robuster; Active/Active nur mit State-/Symmetrie-Bewusstsein.
Hygiene erzwingen: Default-deny, Prefix-Listen, Max-Prefix, Rate-Limits und Auditability als Pflicht.
Observability verpflichtend: Prefix-Counts, Flaps, Policy-Changes, Failoverzeiten und Kundenimpact messen.
Dokumentierte Failure Domains: Pro Kunde/Serviceklasse definieren, welche Region/PoP im Failover übernimmt und warum.
Templates statt Einzelfälle: Wenige Standardprofile (Small/Medium/Large, Single/Dual-Homed, Retail/Wholesale/Enterprise) reduzieren OPEX.