BGP Update Storms sind Phasen, in denen extrem viele BGP-Updates in kurzer Zeit verarbeitet und weitergegeben werden. Das kann CPU und Control Plane überlasten, Sessions instabil machen, Konvergenz verzögern und im Worst Case zu großflächigen Blackholes führen – obwohl das eigentliche Problem vielleicht nur ein flappender Link oder ein einzelnes „lautes“ Prefix ist. In Enterprise-Edges entstehen Update Storms typischerweise durch instabiles Underlay, massenhafte Policy-Änderungen (Route Refresh), fehlerhafte Redistribution oder Route-Leaks. Dieses Tutorial zeigt, wie du Ursachen schnell erkennst, den Impact dämpfst und anschließend mit Monitoring und Designmaßnahmen nachhaltig stabilisierst.
Was genau ist ein Update Storm?
Ein Update Storm ist kein definierter RFC-Begriff, sondern ein Betriebsmuster: Update-Rate und Withdraw-Rate steigen so stark, dass Router merklich langsamer werden oder Sessions flappen. Entscheidend ist dabei nicht nur die Anzahl Prefixes, sondern auch die Anzahl Events pro Prefix (Churn).
Denkmodell
UpdateLoad ≈ Prefixes × ChurnRate × Peers
- Viele Prefixes: Full Table, viele VRFs, viele Kundenrouten
- Hoher Churn: wiederholte Updates/Withdraws pro Prefix
- Viele Peers: Route Reflectors, viele Upstreams, viele iBGP-Clients
Typische Symptome im Betrieb
Update Storms zeigen sich selten als „BGP down“ – eher als Performance- und Stabilitätsprobleme. Du siehst Latenzspikes, Control-Plane-Drops, steigende CPU und manchmal Holdtimer-Expiries.
- CPU-Spikes, Prozesse mit hoher Last (BGP, RIB, CEF/FIB Programming)
- BGP Sessions flappen (Cease/Hold Timer Expired)
- Route Refresh triggert große Update-Wellen
- Delayed Convergence: Routen „kommen langsam“ zurück
Schnelle Indizien
show processes cpu sorted
show ip bgp summary
show logging | include BGP|ADJCHG|Hold|Cease
show ip route summary
Ursache 1: Underlay-Instabilität (Link-Flaps, BFD zu aggressiv)
Die häufigste Root Cause ist nicht BGP selbst, sondern ein instabiles Underlay: Interface-Flaps, Errors, optische Probleme oder zu aggressive BFD-Timer im WAN. Jeder Flap erzeugt Withdraw/Announce für viele Prefixes – und das potenziert sich über Peers.
- Interface/Line protocol flaps
- BFD false positives (Jitter/Queueing)
- IGP Flaps → Next-Hop Reachability bricht → BGP zieht nach
Checks
show interfaces | include CRC|drops|error|protocol
show bfd neighbors
show ip ospf neighbor
show isis neighbors
Ursache 2: Route Refresh / Policy-Rollouts (selbst erzeugte Storms)
Große Policy-Änderungen (Prefix-Lists, Route-Maps) führen oft zu Route Refreshs. Ein einzelnes clear ip bgp ... soft in bei Full Table kann Update-Wellen auslösen, die CPU und Queueing stressen – besonders wenn mehrere Peers parallel refreshen.
- Parallele Soft Refreshs über viele Peers
- RR-Topologien: Refresh propagiert Updates an viele Clients
- Soft Reconfiguration Inbound reduziert Refresh-Last, erhöht aber Memory
Mitigation-Hinweis
- Refresh seriell planen (Peer für Peer)
- Große Changes in Wartungsfenster legen
- Update-Rate während Refresh monitoren
Ursache 3: Route Leaks und „zu viele neue Prefixes“
Ein Route Leak ist ein Update Storm-Katalysator: Plötzlich kommen tausende Prefixes rein oder gehen raus. Ohne Guardrails wie Max-Prefix kann das sehr schnell eskalieren.
- Outbound Filter fehlt → Transit Leak
- Redistribution ohne Whitelist → interne Prefix-Flut
- VRF Leak Fehler → Routen „springen“ zwischen VRFs
Checks
show ip bgp summary
show ip bgp | count
show ip bgp neighbors <peer> advertised-routes
show route-map
show ip prefix-list
Ursache 4: Flappende Prefixes / Path Exploration
Ein einzelnes flappendes Kundenprefix kann sich über viele Peers aufblasen. Zusätzlich erzeugt BGP bei Instabilität Path Exploration: mehrere Pfadkandidaten werden kurzzeitig ausprobiert, bevor Stabilität eintritt.
- Ein Prefix flapt → viele Updates, viele Withdraws
- Path Exploration → mehr Updates als „eigentlich nötig“
- Add-Path kann Exploration reduzieren (gezielt)
Indizien
show ip bgp <prefix>
show logging | include BGP|DAMP|SUPPRESSED
Sofortmaßnahmen: Storm eindämmen ohne Produktion zu gefährden
Wenn ein Storm läuft, ist „Stabilität gewinnen“ wichtiger als perfekte Optimierung. Du willst die Quelle isolieren, Updates reduzieren und Control Plane stabil halten.
- Quelle identifizieren: welcher Peer verursacht Churn?
- Max-Prefix/Policy-Guardrails prüfen (falls triggert)
- Refresh stoppen: keine weiteren Soft Refreshs während des Storms
- Unterlay stabilisieren: BFD weniger aggressiv, flappenden Link drainen
Peer- und Churn-Identifikation
show ip bgp summary
show ip bgp neighbors <peer> | include updates|messages|Last reset
show processes cpu sorted
Mitigation 1: Max-Prefix als Notbremse
Max-Prefix schützt dich vor „Explosionen“ durch Leaks oder unerwartete Full Tables. In Storms ist das oft der Unterschied zwischen „Router bleibt online“ und „Router kippt um“.
Max-Prefix Beispiel
router bgp 65000
neighbor 203.0.113.1 maximum-prefix 100000 90 restart 5
Mitigation 2: Control Plane schützen (CoPP) und CPU stabil halten
Wenn die Control Plane kollabiert, flappen Sessions und der Storm wird selbstverstärkend. CoPP begrenzt Überlast, muss aber so gebaut sein, dass legitimer BGP-Traffic nicht weggedrosselt wird.
- CoPP korrekt dimensionieren (BGP nicht „absägen“)
- CPU-Spikes beobachten, ggf. Storm-Quelle isolieren
- Logging begrenzen (kein Log-Flood)
Mitigation 3: Fast Convergence richtig einsetzen (PIC, BFD, Add-Path)
Fast Convergence reduziert nicht direkt Updates, aber sie kann Stabilität erhöhen: PIC reduziert FIB-Programming-Zeit, BFD liefert schnelle Erkennung, Add-Path kann Path Exploration im iBGP reduzieren. Wichtig: gezielt einsetzen, nicht „überall“.
- PIC: wichtig bei vielen Prefixes (Full Table)
- BFD: nur stabil dimensioniert, sonst Flapping
- Add-Path: gezielt im RR-Design, wenn Exploration dominiert
Monitoring: Was du dauerhaft messen solltest
Update Storms sind vor allem ein Monitoring-Thema: Du willst Trends sehen, bevor es knallt. Entscheidend sind Update-Raten, Session-Flaps, CPU und Route-Counts pro Peer.
- Updates/Withdraws pro Peer (Rate, nicht nur absolute Zahl)
- Session Up/Down Events (ADJCHG, Hold Timer)
- Routenanzahl received/accepted/advertised
- CPU/Memory und Control-Plane Drops
On-Box Checks (kurz)
show ip bgp summary
show ip bgp neighbors <peer>
show processes cpu sorted
show memory statistics
show logging | include BGP|ADJCHG|Hold|Cease
Nach dem Storm: Root Cause sauber finden
Nach Stabilisierung brauchst du RCA: War es Underlay, Policy/Refresh, Leak oder ein flappendes Prefix? Ohne RCA kommt der nächste Storm garantiert wieder. Der wichtigste Schritt ist, Event-Zeitfenster und „wer war der Trigger“ sauber zu dokumentieren.
- Zeitfenster festhalten (Start/Peak/Ende)
- Trigger-Peer identifizieren
- Underlay-Counters und Logs auswerten
- Policy-Changes/Refresh-Aktionen korrelieren
Quick-Runbook: Update Storm in 10 Minuten eingrenzen
Diese Sequenz liefert dir schnell: liegt es am Underlay, an einem Peer, an Refresh oder an einer Prefix-Explosion?
show clock
show processes cpu sorted
show ip bgp summary
show ip bgp | count
show ip bgp neighbors <peer> | include updates|messages|Last reset|Prefix
show logging | include BGP|ADJCHG|Hold|Cease|MAXPFX
show interfaces | include CRC|drops|error|protocol
show bfd neighbors
Konfiguration speichern
Router# copy running-config startup-config
Konfiguriere Cisco Router & Switches und liefere ein Packet-Tracer-Lab (CCNA)
Hallo! Ich bin ein CCNA-Network Engineer und unterstütze Sie bei Cisco Router- und Switch-Konfigurationen – inklusive eines vollständigen Cisco Packet-Tracer-Labs (.pkt). Ideal für Lern-/Übungsszenarien, Validierung oder eine saubere Demo-Topologie.
Was ich (je nach Paket) umsetze
-
Switching: VLANs, Trunking (802.1Q), Port-Zuweisung, STP-Basics (PortFast/BPDU Guard wo sinnvoll)
-
Routing: Default/Static Routing oder OSPF, Inter-VLAN Routing (Router-on-a-Stick)
-
Services: DHCP (Pools/Scopes), NAT/PAT für Internet-Simulation
-
Optional Security: Basic ACLs und SSH-Hardening
-
Test & Verifikation: Ping/Traceroute + wichtige Show-Commands (mit erwarteten Ergebnissen)
Sie erhalten
-
✅ Packet Tracer .pkt Datei
-
✅ Saubere Konfigurations-Notizen pro Gerät
-
✅ Verifikations-Checkliste + erwartete Outputs
-
✅ Kurze Dokumentation (wie die Topologie funktioniert)
Bitte schreiben Sie mir vor der Bestellung, damit wir Scope, Packet-Tracer-Version, Geräteanzahl und Deadline klären.
Konfiguriere Cisco Router & Switches | Cisco Packet-Tracer-Labs. Finden Sie mich auf Fiverr.

