Control-Plane Scaling: CPU, Memory und Tabellenlimits topologisch berücksichtigen

Red Snapper

3 months ago

Control-Plane Scaling ist im Telco- und Provider-Umfeld eine der wichtigsten Disziplinen, um Wachstum dauerhaft beherrschbar zu halten. Während sich viele Architekturentscheidungen auf Bandbreite und Linkredundanz konzentrieren, scheitern große Netze in der Praxis oft an weniger sichtbaren Grenzen: CPU-Spikes in Routing-Prozessen, Memory-Engpässe durch wachsende Tabellen, zu viele Sessions und Zustände in iBGP, oder Hardware-Limits in FIB/TCAM, die plötzlich neue Services blockieren. Diese Grenzen entstehen nicht zufällig, sondern sind eng mit Topologie verbunden. Ein flaches Netz ohne Hierarchie verteilt Detailzustände überallhin – und zwingt jedes Gerät, alles zu wissen. Ein gutes Design dagegen schneidet Failure Domains, nutzt Summarization, trennt Transport von Services und verteilt Kontrollplane-Last bewusst über Rollen (P/PE, RR, Border, Metro-Edge). Genau das bedeutet „topologisch berücksichtigen“: CPU, Memory und Tabellenlimits werden zu Designparametern wie Linkkapazität und Latenz. Dieser Artikel zeigt praxisnah, welche Control-Plane-Ressourcen in Provider-Netzen typischerweise limitieren, wie Topologie diese Limits beeinflusst und welche Architektur-Blueprints helfen, Wachstum zu skalieren, ohne Komplexitäts-Explosion und OPEX-Schub.

Warum Control-Plane Scaling oft der echte Engpass ist

In Carrier-Netzen sind Datenpfad-Upgrades (mehr Bandbreite) häufig planbar: neue Optiken, neue Wellenlängen, neue Linecards. Control-Plane-Limits dagegen treten oft „plötzlich“ auf, weil sie sich schleichend aufbauen: mehr VRFs, mehr EVPN-Instanzen, mehr BGP-Routen, mehr TE-Policies, mehr Telemetry – und irgendwann kippt ein Prozess. Ein einzelner Flapping-Link oder ein RR-Reset kann dann CPU und Memory so belasten, dass das Netz nicht mehr stabil konvergiert. Deshalb müssen Control-Plane-Ressourcen bereits im Design berücksichtigt werden, nicht erst im Incident.

CPU: Routing-Berechnungen (SPF), Update-Verarbeitung, BGP-Decision, Policy-Auswertung, RIB->FIB-Programmierung.
Memory: Routing-Tabellen (RIB), LSDB/LSP-Datenbanken, BGP-Adj-RIBs, EVPN-MAC/IP-States.
Tabellenlimits: FIB/TCAM/Hardware-Entries, Label-/SID-Kapazität, ACL/QoS-Tabellen, MAC-Tabellen.
Session- und State-Limits: iBGP-Sessions, BFD-Sessions, LDP/SR-States, EVPN-BGP-Families.

Das wichtigste Symptom: Konvergenz wird unvorhersehbar

Wenn Control-Plane-Ressourcen knapp werden, ist das gefährlichste nicht der „Totalausfall“, sondern Unvorhersehbarkeit: Konvergenz dauert mal Sekunden, mal Minuten; einzelne Services verschwinden kurz; Pfade wechseln „mystisch“. Carrier-Grade Designs zielen darauf, diese Unvorhersehbarkeit zu verhindern, indem sie Zustände begrenzen und Last verteilen.

Welche Tabellen im Provider-Netz wirklich wachsen

Viele Teams schauen nur auf „Routenanzahl“. In der Praxis wachsen mehrere Tabellen parallel – und nicht jede wächst aus demselben Grund. Für ein realistisches Control-Plane Scaling müssen Sie deshalb differenzieren, welche State-Arten in Ihrem Netz dominieren.

IGP-State: Anzahl Links/Knoten in der LSDB, SPF-Laufzeiten, Flooding-Volumen bei Änderungen.
BGP-RIBs: Global-Routing, Kundenpräfixe (L3VPN), EVPN-Routen, Policy-Attribute, Path-Alternativen.
EVPN/MAC-State: MAC/IP-Learning, ARP/ND-States, Host-Mobilität, Multihoming-Informationen.
MPLS/SR-State: Label/Segment-Informationen, TE-/Policy-States, ggf. zusätzliche Encapsulation-Parameter.
ACL/QoS-State: Rollenbasierte Filter, Serviceklassen, policer/shaper-Instanzen, die TCAM belegen.

Wachstumsfalle: Jede neue Servicevariante multipliziert State

Ein neues Produktprofil klingt harmlos, kann aber massiv State erzeugen: zusätzliche VRFs, zusätzliche Policies, zusätzliche QoS-Klassen, zusätzliche EVPN-Instanzen. Control-Plane Scaling ist daher auch Produkt- und Governance-Engineering: Wenige, klar definierte Service-Blueprints sind oft wirksamer als jede Hardware-Aufrüstung.

Topologie als Zustandsverstärker oder Zustandsbegrenzer

Topologie entscheidet, wie weit Zustände „sichtbar“ sind. In einer flachen Domäne sieht jedes Gerät jedes Detail: jede Linkänderung, jedes Präfix, jede EVPN-Route. In einer hierarchischen Topologie werden Details an Kanten aggregiert: Access-Details bleiben im Access, regionale Details bleiben regional, der Core sieht nur Summaries und transportrelevanten State. Genau hier liegt die topologische Stellschraube für CPU und Memory.

Flaches Design: maximale Sichtbarkeit, maximale Update-Last, schnelle Komplexitäts-Explosion.
Hierarchie: Areas/Levels, regionale RRs, klare Aggregationskanten, weniger globale Churn-Wellen.
Failure Domains: Wenn physische Ausfälle lokal bleiben, sollte auch der Kontrollplan lokal bleiben.
Service-Edge-Prinzip: Services terminieren an PEs/Edges, Transit-Core bleibt „langweilig“.

Ein Leitprinzip: Der Core trägt Transport, nicht Kundendetails

Im Carrier-Netz ist der Core am stabilsten, wenn er möglichst wenig kundenspezifischen State kennt. Kundenspezifischer State gehört an die Provider Edge, Service-Routing in iBGP, Transportzustand in IGP/SR. Diese Trennung reduziert Tabellenwachstum im Transit und schützt die CPU im Kern.

CPU-Scaling: Was Router wirklich belastet

CPU-Probleme im Backbone sind selten „Dauerlast“, sondern Peak-Last: Ereignisse erzeugen Update-Bursts, SPF-Rechnungen, BGP-Decision-Wellen, FIB-Programmierungsstürme. Convergence Engineering und Control-Plane Scaling treffen sich hier: Sie wollen schnelle Wiederherstellung, aber ohne CPU-Kollaps.

SPF-Bursts: Viele IGP-Updates in kurzer Zeit erzeugen wiederholte Neuberechnungen.
BGP-Churn: RR-Events, Session-Resets, Massenupdates bei Policy-Änderungen.
RIB->FIB-Programmierung: Große Update-Mengen können Datenebenenprogrammierung verzögern.
Policy-Auswertung: Komplexe Route-Policies und große Communities/Matches sind CPU-intensiv.
Telemetry/Logging: Zu hohe Sampling-Raten oder unkontrolliertes Logging kann CPU-Spitzen verstärken.

Topologischer CPU-Hebel: Churn lokalisieren

Wenn ein Access-Link flapt, sollte nicht der gesamte Backbone SPF-Bursts erleben. Hierarchie (Areas/Levels), Summarization, klare Border-Knoten und lokale FRR/TI-LFA reduzieren die Notwendigkeit, dass der gesamte Kontrollplan sofort reagiert.

Memory-Scaling: RIB, Adj-RIB und EVPN-States

Memory wird häufig durch „unsichtbaren“ State gefressen: BGP hält nicht nur die beste Route, sondern mehrere Pfade, Attribute, Adj-RIB-In/Out pro Peer, sowie pro Address-Family getrennte Tabellen. EVPN kann zusätzlich enorme MAC/IP-States erzeugen, wenn Domänen zu groß werden oder Host-Mobility unkontrolliert ist.

BGP Path Multiplicity: Viele alternative Pfade pro Präfix erhöhen Memory stark, auch wenn nur einer aktiv ist.
Viele Peers: Mehr Peers bedeutet mehr Adj-RIBs – RR-Topologie beeinflusst das direkt.
EVPN-Domänengröße: Große L2-Domänen und zu viele Endpunkte treiben MAC/IP-Tabellen.
Leak-Risiken: Route-Leaks oder falsche Import/Export-Regeln können Memory explosionsartig belasten.

Topologischer Memory-Hebel: EVPN/L2 bewusst begrenzen, L3 als Default

Im Provider-Umfeld ist L3 häufig der stabilere Default, weil er Broadcast-Domänen klein hält. EVPN und L2-Services sind wertvoll, aber sie brauchen Scope-Regeln: regionale Begrenzung, Teilnehmerlimits, klare Gateway-Rollen. Damit bleibt MAC/IP-State beherrschbar.

Tabellenlimits in Hardware: FIB, TCAM und „unsichtbare“ Ressourcen

Viele Engpässe sind keine CPU- oder RAM-Themen, sondern Hardware-Tabellenlimits: FIB-Entries, MPLS-Label-Kapazität, SR-SID-Entries, ACL- und QoS-TCAM, Policers, Counters. Diese Limits sind besonders kritisch, weil sie nicht selten abrupt wirken: Ein neues Serviceprofil lässt sich nicht mehr deployen, oder eine Policy wird „partiell“ programmiert.

FIB/Forwarding Entries: Anzahl installierbarer Routen (global und VRF) kann begrenzt sein.
Label/SID-Kapazität: MPLS-Labels oder SR-SIDs benötigen Hardware-Entries.
ACL/QoS-TCAM: Zu viele Filter/klassenbasierte Regeln können TCAM erschöpfen.
Counters/Telemetry: High-Cardinality Counters können Plattformlimits treffen.

Blueprint-Regel: Plattformlimits sind Architekturparameter

Wenn Sie ein Service-Blueprint definieren (z. B. L3VPN Premium mit mehreren QoS-Klassen), sollten Sie explizit modellieren, welche Hardware-Ressourcen es konsumiert. Das verhindert, dass Produktentwicklung und Netzdesign auseinanderlaufen.

RR-Topologie und iBGP-Skalierung: Sessions, Update-Last, Failure Domains

iBGP skaliert in großen Netzen nur über Route Reflectors. Das RR-Design beeinflusst direkt CPU- und Memory-Last: Anzahl der Sessions, Anzahl der Updates pro Ereignis, Propagation-Latenz und Blast Radius. Ein zentraler RR-Cluster ist einfach, kann aber zu großen Failure Domains führen. Regionale oder zweistufige RR-Hierarchien begrenzen dagegen Churn und verteilen Last – erfordern jedoch klare Governance.

Sessions reduzieren: RR statt Full-Mesh, Clients dual-homed zu mindestens zwei RRs.
Regionale RR-Cluster: Reduzieren RTT, verteilen Last, begrenzen Failure Domains.
Zwei-Ebenen-Hierarchie: Für sehr große Netze; klare Kontrollpunkte für Inter-Region-Policies.
Route Hygiene: Filter und Max-Prefix verhindern, dass Fehlkonfigurationen Tabellen sprengen.

RRs sind keine „Nebenrolle“

RRs sind Control-Plane-Knoten mit hoher Update-Last. Sie brauchen Headroom, stabile Plattformen, Diversität und Observability. Wenn RRs auf „irgendeinem“ Router mit Datenebenen-Last mitlaufen, steigt das Risiko, dass CPU-Spitzen zu großflächigen Serviceproblemen werden.

IGP-Scaling: Domänenstruktur, Flooding und SPF-Kosten

IGP-Design beeinflusst CPU und Memory massiv: Große LSDBs, häufige Änderungen und schlechte Hierarchie führen zu SPF-Bursts. Telco-Netze profitieren deshalb von klarer Domänenstruktur (OSPF Areas oder IS-IS Levels), konservativem Timer-Design, SPF-Throttling und dem Grundsatz, dass Access-Details nicht im Core sichtbar sein sollten.

Domänenhierarchie: Updates lokal halten, Core stabil halten.
Summarization: Präfixe aggregieren, Route-Churn reduzieren – nur topologisch korrekt.
SPF-Throttling: CPU-Spitzen glätten, Flapping eindämmen.
Failure Handling: FRR/TI-LFA reduziert die Notwendigkeit, dass Konvergenz „sofort perfekt“ sein muss.

Topologischer IGP-Skalierungshebel: Weniger, aber stabilere Links

Zu viele „billige“ Links mit instabiler Qualität erzeugen Flooding- und SPF-Last. In Carrier-Netzen ist es oft besser, weniger, dafür hochwertige und diversifizierte Links zu betreiben – plus klar definierte Redundanzpfade und Schutzkonzepte.

Service-Separation: VRFs, EVPN und Policies als State-Treiber

Multi-Tenancy ist ein großer Wachstumsfaktor für Control-Plane-States. VRFs und EVPN-Instanzen multiplizieren Routen, Policies und Tabellen. Ohne Standardisierung entsteht VRF-Sprawl: jede Kundenanforderung wird eine neue Instanz, jede Instanz eine neue Policyvariante. Das skaliert schlecht – unabhängig von Hardware.

Service-VRFs statt Customer-VRFs: Wo möglich, produktklassenbasierte VRFs mit klaren Regeln nutzen.
EVPN-Scope-Regeln: L2-Services begrenzen, L3 als Default, Gateway-Rollen klar definieren.
Policy-as-Code: Templates, Versionierung, Reviews und Wellen-Rollouts verhindern Wildwuchs.
Ausnahmen kontrollieren: Owner, Begründung, Testplan, idealerweise Ablaufdatum.

Ein Multiplikations-Effekt, den viele unterschätzen

Wenn Sie 1.000 Kunden haben und jede Ausnahme „nur“ zwei zusätzliche Policies erzeugt, haben Sie plötzlich 2.000 zusätzliche Regeln – und diese wirken auf TCAM, CPU (Policy-Auswertung), Memory (State) und Betrieb (Troubleshooting). Standardisierung ist daher ein Control-Plane-Skalierungswerkzeug.

Control-Plane Schutz: Guardrails gegen self-inflicted Outages

Je größer das Netz, desto wichtiger sind Guardrails. Ein einzelnes Ereignis darf nicht durch unkontrollierte Update-Fluten oder fehlerhafte Automation zu einem Netzweiten Incident werden. Control-Plane-Scaling verlangt daher Schutzmechanismen: Rate-Limits, Priorisierung, Max-Prefix, Quarantäne für flappende Nachbarn und klare Change-Governance.

Max-Prefix und Limits: Verhindern Route-Explosionen bei Leaks oder Fehlkonfigurationen.
Flap-Control: Instabile Links/Peers begrenzen, Hysterese und Backoff nutzen.
Control-Plane Policing: Schutz gegen volumetrische Ereignisse und Fehlverhalten.
Wellen-Rollouts: Änderungen gestaffelt ausrollen, Blast Radius kontrollieren.

Guardrails sind Teil der Architektur, nicht „NOC-Policy“

Wenn Guardrails nur in Runbooks existieren, sind sie zu spät. Sie müssen in Templates und Standardkonfigurationen eingebaut sein, damit das Netz automatisch robust bleibt – auch wenn Menschen Fehler machen.

Observability: Scaling ist nur steuerbar, wenn es messbar ist

Control-Plane-Scaling scheitert oft an fehlender Sichtbarkeit. Durchschnittswerte reichen nicht: CPU-Spikes dauern Sekunden, Update-Stürme passieren kurz, und Memory-Pressure zeigt sich erst spät. Provider brauchen daher Telemetry, die Control-Plane-Health und Tabellenwachstum kontinuierlich erfasst – inklusive Trendanalyse und klaren Upgrade-Triggern.

CPU/Memory Telemetry: Prozess-level KPIs (Routing, BGP, RIB/FIB, Telemetry-Prozesse).
Table Telemetry: RIB/FIB-Counts, EVPN-MAC/IP-Counts, Label/SID-Counts, TCAM-Auslastung.
Event-Metriken: Update-Raten, SPF-Events, BGP-Propagation-Zeiten, RR-Churn.
Trendbasierte Trigger: Nicht erst bei 95 % reagieren, sondern bei Wachstumsraten und Peaks.

Evidence-by-Design: Kapazitätsplanung für Control Plane

Wenn Sie Tabellen- und Ressourcenwachstum historisieren, können Sie Control-Plane-Upgrades planen wie Bandbreiten-Upgrades: mit Forecasting, Schwellenwerten und klaren Investitionsentscheidungen. Das reduziert Notfallprojekte und erhöht Betriebssicherheit.

Ein praktisches topologisches Denkmodell für Control-Plane Scaling

Control-Plane-Last steigt mit Sichtbarkeit und Zustandsvielfalt. Topologie und Hierarchie bestimmen, wie weit Zustände sichtbar sind; Produkt- und Policy-Varianten bestimmen die Vielfalt. Abstrakt:

CP_Load=h(Sichtbarkeit,Zustandsvielfalt,Ereignisrate)

Sie können Sichtbarkeit durch Hierarchie, Summarization und Rollenmodelle reduzieren. Sie können Zustandsvielfalt durch Service-Blueprints und Governance begrenzen. Und Sie können die Ereignisrate durch Flap-Control, bessere Topologiequalität und Schutzkonzepte reduzieren.

Praktische Leitlinien: CPU, Memory und Tabellenlimits topologisch berücksichtigen

Hierarchie erzwingen: Areas/Levels, regionale RR-Cluster, klare Domänengrenzen – Details lokal halten.
Core „langweilig“ halten: Transit-Core ohne kundenspezifische Details; Services an PEs/Edges terminieren.
Summarization korrekt nutzen: IP-Plan und Topologie als Paar denken, Blackholes aktiv verhindern.
EVPN/L2 begrenzen: L2-Scopes klein halten, L3 als Default, MAC/IP-State kontrollieren.
RR-Topologie standardisieren: Redundante, diverse RRs; keine zentralen Hidden SPOFs; Update-Last verteilen.
Policy-Varianten minimieren: Wenige Produktprofile, Policy-as-Code, Ausnahmen streng steuern.
Hardware-Limits modellieren: FIB/TCAM/Label/SID-Kapazitäten pro Blueprint als Architekturparameter.
Guardrails einbauen: Max-Prefix, Rate-Limits, Flap-Control, Wellen-Rollouts.
Telemetry verpflichtend: Prozess-KPIs, Tabellenstände, Eventraten und Trends als Standard.