BGP Update Storms: Ursachen, Mitigation und Monitoring

Red Snapper

3 weeks ago

BGP Update Storms sind Phasen, in denen extrem viele BGP-Updates in kurzer Zeit verarbeitet und weitergegeben werden. Das kann CPU und Control Plane überlasten, Sessions instabil machen, Konvergenz verzögern und im Worst Case zu großflächigen Blackholes führen – obwohl das eigentliche Problem vielleicht nur ein flappender Link oder ein einzelnes „lautes“ Prefix ist. In Enterprise-Edges entstehen Update Storms typischerweise durch instabiles Underlay, massenhafte Policy-Änderungen (Route Refresh), fehlerhafte Redistribution oder Route-Leaks. Dieses Tutorial zeigt, wie du Ursachen schnell erkennst, den Impact dämpfst und anschließend mit Monitoring und Designmaßnahmen nachhaltig stabilisierst.

Was genau ist ein Update Storm?

Ein Update Storm ist kein definierter RFC-Begriff, sondern ein Betriebsmuster: Update-Rate und Withdraw-Rate steigen so stark, dass Router merklich langsamer werden oder Sessions flappen. Entscheidend ist dabei nicht nur die Anzahl Prefixes, sondern auch die Anzahl Events pro Prefix (Churn).

Denkmodell

UpdateLoad ≈ Prefixes × ChurnRate × Peers

Viele Prefixes: Full Table, viele VRFs, viele Kundenrouten
Hoher Churn: wiederholte Updates/Withdraws pro Prefix
Viele Peers: Route Reflectors, viele Upstreams, viele iBGP-Clients

Typische Symptome im Betrieb

Update Storms zeigen sich selten als „BGP down“ – eher als Performance- und Stabilitätsprobleme. Du siehst Latenzspikes, Control-Plane-Drops, steigende CPU und manchmal Holdtimer-Expiries.

CPU-Spikes, Prozesse mit hoher Last (BGP, RIB, CEF/FIB Programming)
BGP Sessions flappen (Cease/Hold Timer Expired)
Route Refresh triggert große Update-Wellen
Delayed Convergence: Routen „kommen langsam“ zurück

Schnelle Indizien

show processes cpu sorted
show ip bgp summary
show logging | include BGP|ADJCHG|Hold|Cease
show ip route summary

Ursache 1: Underlay-Instabilität (Link-Flaps, BFD zu aggressiv)

Die häufigste Root Cause ist nicht BGP selbst, sondern ein instabiles Underlay: Interface-Flaps, Errors, optische Probleme oder zu aggressive BFD-Timer im WAN. Jeder Flap erzeugt Withdraw/Announce für viele Prefixes – und das potenziert sich über Peers.

Interface/Line protocol flaps
BFD false positives (Jitter/Queueing)
IGP Flaps → Next-Hop Reachability bricht → BGP zieht nach

Checks

show interfaces | include CRC|drops|error|protocol
show bfd neighbors
show ip ospf neighbor
show isis neighbors

Ursache 2: Route Refresh / Policy-Rollouts (selbst erzeugte Storms)

Große Policy-Änderungen (Prefix-Lists, Route-Maps) führen oft zu Route Refreshs. Ein einzelnes clear ip bgp ... soft in bei Full Table kann Update-Wellen auslösen, die CPU und Queueing stressen – besonders wenn mehrere Peers parallel refreshen.

Parallele Soft Refreshs über viele Peers
RR-Topologien: Refresh propagiert Updates an viele Clients
Soft Reconfiguration Inbound reduziert Refresh-Last, erhöht aber Memory

Mitigation-Hinweis

Refresh seriell planen (Peer für Peer)
Große Changes in Wartungsfenster legen
Update-Rate während Refresh monitoren

Ursache 3: Route Leaks und „zu viele neue Prefixes“

Ein Route Leak ist ein Update Storm-Katalysator: Plötzlich kommen tausende Prefixes rein oder gehen raus. Ohne Guardrails wie Max-Prefix kann das sehr schnell eskalieren.

Outbound Filter fehlt → Transit Leak
Redistribution ohne Whitelist → interne Prefix-Flut
VRF Leak Fehler → Routen „springen“ zwischen VRFs

Checks

show ip bgp summary
show ip bgp | count
show ip bgp neighbors <peer> advertised-routes
show route-map
show ip prefix-list

Ursache 4: Flappende Prefixes / Path Exploration

Ein einzelnes flappendes Kundenprefix kann sich über viele Peers aufblasen. Zusätzlich erzeugt BGP bei Instabilität Path Exploration: mehrere Pfadkandidaten werden kurzzeitig ausprobiert, bevor Stabilität eintritt.

Ein Prefix flapt → viele Updates, viele Withdraws
Path Exploration → mehr Updates als „eigentlich nötig“
Add-Path kann Exploration reduzieren (gezielt)

Indizien

show ip bgp <prefix>
show logging | include BGP|DAMP|SUPPRESSED

Sofortmaßnahmen: Storm eindämmen ohne Produktion zu gefährden

Wenn ein Storm läuft, ist „Stabilität gewinnen“ wichtiger als perfekte Optimierung. Du willst die Quelle isolieren, Updates reduzieren und Control Plane stabil halten.

Quelle identifizieren: welcher Peer verursacht Churn?
Max-Prefix/Policy-Guardrails prüfen (falls triggert)
Refresh stoppen: keine weiteren Soft Refreshs während des Storms
Unterlay stabilisieren: BFD weniger aggressiv, flappenden Link drainen

Peer- und Churn-Identifikation

show ip bgp summary
show ip bgp neighbors <peer> | include updates|messages|Last reset
show processes cpu sorted

Mitigation 1: Max-Prefix als Notbremse

Max-Prefix schützt dich vor „Explosionen“ durch Leaks oder unerwartete Full Tables. In Storms ist das oft der Unterschied zwischen „Router bleibt online“ und „Router kippt um“.

Max-Prefix Beispiel

router bgp 65000
 neighbor 203.0.113.1 maximum-prefix 100000 90 restart 5

Mitigation 2: Control Plane schützen (CoPP) und CPU stabil halten

Wenn die Control Plane kollabiert, flappen Sessions und der Storm wird selbstverstärkend. CoPP begrenzt Überlast, muss aber so gebaut sein, dass legitimer BGP-Traffic nicht weggedrosselt wird.

CoPP korrekt dimensionieren (BGP nicht „absägen“)
CPU-Spikes beobachten, ggf. Storm-Quelle isolieren
Logging begrenzen (kein Log-Flood)

Mitigation 3: Fast Convergence richtig einsetzen (PIC, BFD, Add-Path)

Fast Convergence reduziert nicht direkt Updates, aber sie kann Stabilität erhöhen: PIC reduziert FIB-Programming-Zeit, BFD liefert schnelle Erkennung, Add-Path kann Path Exploration im iBGP reduzieren. Wichtig: gezielt einsetzen, nicht „überall“.

PIC: wichtig bei vielen Prefixes (Full Table)
BFD: nur stabil dimensioniert, sonst Flapping
Add-Path: gezielt im RR-Design, wenn Exploration dominiert

Monitoring: Was du dauerhaft messen solltest

Update Storms sind vor allem ein Monitoring-Thema: Du willst Trends sehen, bevor es knallt. Entscheidend sind Update-Raten, Session-Flaps, CPU und Route-Counts pro Peer.

Updates/Withdraws pro Peer (Rate, nicht nur absolute Zahl)
Session Up/Down Events (ADJCHG, Hold Timer)
Routenanzahl received/accepted/advertised
CPU/Memory und Control-Plane Drops

On-Box Checks (kurz)

show ip bgp summary
show ip bgp neighbors <peer>
show processes cpu sorted
show memory statistics
show logging | include BGP|ADJCHG|Hold|Cease

Nach dem Storm: Root Cause sauber finden

Nach Stabilisierung brauchst du RCA: War es Underlay, Policy/Refresh, Leak oder ein flappendes Prefix? Ohne RCA kommt der nächste Storm garantiert wieder. Der wichtigste Schritt ist, Event-Zeitfenster und „wer war der Trigger“ sauber zu dokumentieren.

Zeitfenster festhalten (Start/Peak/Ende)
Trigger-Peer identifizieren
Underlay-Counters und Logs auswerten
Policy-Changes/Refresh-Aktionen korrelieren

Quick-Runbook: Update Storm in 10 Minuten eingrenzen

Diese Sequenz liefert dir schnell: liegt es am Underlay, an einem Peer, an Refresh oder an einer Prefix-Explosion?

show clock
show processes cpu sorted
show ip bgp summary
show ip bgp | count
show ip bgp neighbors <peer> | include updates|messages|Last reset|Prefix
show logging | include BGP|ADJCHG|Hold|Cease|MAXPFX
show interfaces | include CRC|drops|error|protocol
show bfd neighbors

Konfiguration speichern

Router# copy running-config startup-config

Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)

Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.

Was ich (je nach Paket) umsetze

Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)
Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)
Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation
Optional Security: Basic ACLs und SSH-Hardening
Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)

Sie erhalten

✅ Packet Tracer .pkt Datei
✅ Saubere Konfigurations-Notizen pro Gerät
✅ Verifikations-Checkliste + erwartete Outputs
✅ Kurze Dokumentation (wie die Topologie funktioniert)

Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.

Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.