Ein BGP Flap ist für Kunden häufig schlimmer als ein einzelner, klarer Ausfall. Während eine einmalige BGP-Session-Unterbrechung oft „nur“ eine kurze Rekonvergenz auslöst, erzeugt ein wiederholtes Up/Down („Flapping“) eine instabile Routing-Lage: Präfixe erscheinen und verschwinden, Pfade wechseln im Minuten- oder Sekundenrhythmus, und Anwendungen verhalten sich unvorhersehbar. Genau deshalb wird ein BGP Flap im NOC häufig als „High Severity“-Signal behandelt – nicht zwingend wegen des ersten Drops, sondern wegen des dauerhaften Route-Churns, der die Datenebene belastet, State auf Firewalls/NAT-Geräten zerstört und die Kundenerfahrung massiv verschlechtert. In der Praxis äußert sich das als Paketverlustspitzen, schwankende Latenz, abreißende VPNs, instabile VoIP-Calls, Timeouts bei APIs, sporadische Login-Probleme oder „Seite lädt manchmal“. Dieser Artikel erklärt die typischen Kundenauswirkungen eines BGP Flaps und zeigt praxistaugliche Stabilisierungsschritte: Wie Sie den Blast Radius begrenzen, welche Sofortmaßnahmen wirklich helfen (ohne das Netz noch stärker zu destabilisieren), wie Sie mit Dämpfung, Timern, BFD und Policy-Strategien umgehen, und wie Sie nach der Stabilisierung eine belastbare Root-Cause-Spur legen, damit der Flap nicht wiederkehrt.
Was ein BGP Flap im Kern auslöst: Route-Churn statt „nur Session Down“
BGP ist ein Routing-Protokoll, das über TCP läuft und Routen (Präfixe) austauscht. Wenn eine BGP-Session flappt, ist das Ergebnis nicht nur „Session kurz weg“, sondern vor allem: Routen werden withdrawnt und anschließend erneut announced. Dieser wiederholte Wechsel verursacht kontinuierliche Änderungen in Routing-Tabellen, Forwarding-Tabellen (FIB) und in der Policy-Auswertung. Je nach Plattform und Netzgröße kann das zu messbarer Control-Plane-Last führen. Gleichzeitig wandert Traffic zwischen Pfaden, was die Datenebene unmittelbar beeinflusst.
- Route Withdraw: Präfixe des Peers werden entfernt, Traffic fällt auf Alternativen zurück oder wird verworfen.
- Re-Announcement: Präfixe kommen zurück, Pfade werden neu gewählt, ECMP-Verteilungen ändern sich.
- Policy-Neubewertung: Route-Maps, Communities, LocalPref, MED, AS-Path-Filter werden erneut angewendet.
- Konvergenz kostet Zeit: Selbst wenn es nur Sekunden sind, erzeugt ein Flap alle paar Minuten dauerhaft Störungen.
Die technische Grundlage für BGP ist RFC 4271 (BGP-4). Für viele Stabilitätsmechanismen ist außerdem relevant, wie Timer und Zustände im Standard beschrieben sind.
Kundenauswirkungen: Welche Symptome Kunden wirklich spüren
Die Kundensicht ist selten „BGP flappt“. Kunden erleben Effekte auf Applikationsebene. Je nach Kundentyp (Enterprise, ISP, Cloud-Anbindung, VPN, VoIP) unterscheiden sich die Symptome, aber das Muster ist ähnlich: Instabilität statt Totalausfall.
- Intermittenter Paketverlust: Peaks bei Packet Loss, besonders während Withdraw/Announce-Phasen.
- Schwankende Latenz: Pfadwechsel führen zu wechselnden RTTs, Jitter steigt, Echtzeitdienste leiden.
- Session Resets: TCP-Verbindungen (z. B. zu APIs) können durch Pfadwechsel und State-Verlust auf Middleboxes abbrechen.
- VPN- und Tunnel-Probleme: IPsec/SSL-VPNs flappen, wenn Underlay-Pfade wechseln oder Keepalives timeouts haben.
- Asymmetrisches Routing: Kurzzeitig kann der Hinweg über Pfad A und der Rückweg über Pfad B laufen, was Firewalls/NAT stören kann.
- DNS- und Web-Symptome: „Manchmal geht’s“ entsteht, wenn Anycast/DNS-Pfade wechseln oder einzelne Prefixe intermittierend fehlen.
Warum BGP Flaps so teuer sind: Sekundäreffekte im Netz
Ein BGP Flap ist nicht nur „Routing ändert sich“. Er zieht oft weitere Effekte nach sich, die den Incident verlängern oder den Impact vergrößern:
- Control-Plane-Überlast: Viele Updates, viele Policy-Checks, erhöhte CPU/Memory-Nutzung.
- FIB-Update-Stress: Häufige Install/Remove-Zyklen in Hardwaretabellen können Plattformgrenzen sichtbar machen.
- Micro-Loops und Blackholing: Während der Rekonvergenz können Übergangszustände zu kurzzeitigen Loops oder Drops führen.
- Überlast auf Backup-Pfaden: Wenn Traffic wiederholt auf einen sekundären Link fällt, kann dieser überlaufen.
- Monitoring-Noise: Viele Folgealarme (Interface Utilization, Errors, Latency, Applikationsalarme) erschweren die Diagnose.
Flap-Typen unterscheiden: „Hard Down“, „Soft Fail“ und „Route Flap“
Für Stabilisierung und Kommunikation ist wichtig, den Flap-Typ zu benennen. Nicht jeder Flap ist identisch.
- Session-Flap (Neighbor Up/Down): Die TCP/BGP-Session verliert „Established“. Häufig Transport, Timer, Policing oder Authentication.
- Route-Flap ohne Session-Down: Session bleibt etabliert, aber Routen flappen (z. B. durch Policy-Änderungen, IGP/Next-Hop Instabilität, Route-Reflector-Instabilität).
- Partial Flap (nur bestimmte AFI/SAFI): IPv4 stabil, IPv6 flappt (oder umgekehrt), EVPN/VPNv4 betroffen.
In der Praxis ist ein Route-Flap ohne Session-Down oft schwerer zu erkennen, weil „BGP ist up“ trügerisch wirkt. Kunden spüren dennoch Instabilität, weil Präfixe oder Next-Hops wechseln.
Sofortmaßnahmen: Stabilisieren, bevor Sie perfektes RCA haben
Bei BGP Flaps ist das Ziel zunächst: den Schaden begrenzen und Routing beruhigen. Eine vollständige Root Cause Analysis folgt danach, aber ohne Stabilisierung laufen Sie Gefahr, dass das Netz permanent in Rekonvergenz bleibt. Die folgenden Maßnahmen sind in vielen Produktionsnetzen sinnvoll – vorausgesetzt, Sie setzen sie kontrolliert und zielgerichtet ein.
- Blast Radius eingrenzen: Betroffene Peers, betroffene Präfixe und betroffene Kunden/Standorte klar identifizieren.
- Traffic schützen: Wenn es Alternativpfade gibt, prüfen, ob diese stabil genug sind und nicht überlasten.
- Flap-Quelle isolieren: Wenn ein einzelner Peer oder ein einzelner Transit-Link instabil ist, kann ein kontrolliertes Deaktivieren dieses Peers kurzfristig die Gesamtlage stabilisieren.
- Überlast vermeiden: Bei massiven Flaps kann es sinnvoll sein, unnötige Re-Announcements zu reduzieren (z. B. durch temporäres Dämpfen oder durch kontrollierte Policy).
Stabilisierung über Dämpfung: Wann Route Flap Damping hilft – und wann nicht
Route Flap Damping ist ein Mechanismus, der instabile Routen „bestraft“, damit sie nicht ständig in die Best-Path-Auswahl einfließen. Operativ klingt das ideal, ist aber heikel: Zu aggressives Dämpfen kann legitime Routen zu lange unterdrücken und damit Kundenausfälle verlängern. Die klassische Spezifikation ist RFC 2439 (BGP Route Flap Damping). In modernen Netzen wird Dämpfung oft selektiv eingesetzt oder durch andere Stabilitätsstrategien ergänzt.
Penalty-Logik verständlich machen
Vereinfacht gesprochen sammelt eine Route bei jedem Flap „Penalty“. Diese Penalty fällt mit der Zeit wieder ab. Wird ein Suppress-Threshold überschritten, wird die Route unterdrückt. Ein einfaches Modell der Abklingfunktion lässt sich als exponentieller Zerfall ausdrücken:
Operativ heißt das: Je häufiger die Route flappt, desto länger kann sie unterdrückt bleiben. Das kann Stabilität erhöhen, aber auch „Second Outage“-Effekte erzeugen, wenn die Route wieder gesund ist, aber weiterhin suppressed bleibt.
Praktische Regeln für Dämpfung in der Produktion
- Selektiv statt global: Dämpfen Sie nicht pauschal „alles“, sondern nur Routen/Peers, die nachweislich instabil sind.
- Kundenimpact berücksichtigen: Bei Single-Homed-Kunden kann Dämpfung die Erreichbarkeit komplett verhindern.
- Transparenz: Wenn Dämpfung aktiv ist, muss im Incident klar sein, ob der Ausfall durch Flap oder durch Suppression verursacht wird.
Stabilisierung über Timer und BFD: schneller erkennen, aber nicht schneller sterben
Viele Flaps werden durch Timer-Interaktion verstärkt. Aggressive Hold/Keepalive-Werte oder BFD-Profile können aus kleinen Paketverlusten sofort harte Failures machen. Das ist nicht grundsätzlich falsch – schnelle Failover ist oft gewünscht –, aber es muss zur realen Linkqualität und zur Control-Plane-Leistung passen.
BGP Timer sinnvoll interpretieren
Das Verhältnis von Keepalive und Hold Time wird häufig als „Keepalive = Hold/3“ implementiert oder empfohlen. Entscheidend ist: Wenn Keepalives wegen Jitter, QoS oder Policing nicht zuverlässig ankommen, wird die Session künstlich fragil.
BFD als Verstärker oder als Lösung
BFD kann Failure Detection deutlich beschleunigen, ist aber ebenfalls empfindlich gegenüber Loss/Jitter. Wenn ein Link gelegentlich Mikroverluste hat, kann BFD Flaps triggern, die BGP ohne BFD vielleicht „überlebt“ hätte. Für die Grundlagen zu BFD ist RFC 5880 (BFD) eine gute Referenz.
- Wenn BFD Flaps erzeugt: Prüfen Sie die BFD-Intervalle und Multiplier – oft ist das Profil zu aggressiv für die reale Strecke.
- Wenn BGP zu langsam failt: BFD kann sinnvoll sein, wenn der Transport stabil ist und Sie schnelle Umschaltung brauchen.
- Wichtig: BFD ersetzt kein stabiles Underlay. Es erkennt nur schneller, dass etwas nicht stimmt.
Kundenkommunikation während BGP Flaps: Was Sie sagen sollten und was nicht
Bei Flaps ist Kommunikation besonders schwierig, weil der Zustand nicht linear ist: „geht – geht nicht – geht wieder“. Kunden brauchen Klarheit: Was ist betroffen, wie äußert es sich, was tun Sie zur Stabilisierung, und wann kommt der nächste Status. Technisch sollten Sie interne Diagnosen nicht als Spekulation nach außen tragen. Operativ sollten Sie stattdessen beobachtbare Fakten und konkrete Maßnahmen kommunizieren.
- Symptom statt Vermutung: „Intermittierende Erreichbarkeitsprobleme durch Routing-Instabilität“ ist besser als „BGP ist kaputt“.
- Scope klar: Betroffene Standorte/Services/Prefixe, nicht „das ganze Netz“.
- Stabilisierungsschritte nennen: „Traffic wird auf stabilen Pfad umgelegt“, „instabiler Peer wird isoliert“, „Routen werden beruhigt“.
- Update-Rhythmus: Regelmäßige Updates sind wichtig, weil Kunden Flaps als „Zufall“ erleben.
Konkrete Stabilisierungsschritte im NOC: Ein praxisnaher Ablauf
Die folgenden Schritte sind so gestaltet, dass Sie zuerst Stabilität herstellen und danach die Ursache sauber eingrenzen. Sie sind bewusst herstellerneutral formuliert.
Schritt: Flap-Muster quantifizieren
- Wie oft pro Stunde? Flap-Rate bestimmen (z. B. Anzahl Session-Resets, Anzahl Withdraw/Announce-Ereignisse).
- Ist es ein Peer oder mehrere? Mehrere gleichzeitige Flaps sprechen für Transport, Control-Plane oder ein gemeinsames Segment.
- Welche Präfixe sind betroffen? Vollständige Tabelle oder nur Teilmenge (z. B. nur IPv6, nur Kundenroute, nur Default)?
Schritt: Blast Radius begrenzen
- Instabilen Peer priorisieren: Wenn ein Peer den Großteil des Churns verursacht, zuerst dort ansetzen.
- Backup-Pfad prüfen: Wenn Sie Traffic verlagern, muss der Backup-Pfad Kapazität und Policy-Korrektheit haben.
- Überlast vermeiden: Monitoring auf Link-Utilization und Drops nach Traffic-Shift sofort prüfen.
Schritt: Stabilisierung mit minimaler Invasivität
- Wenn Transport instabil: Underlay fixen (Errors, Optik, LAG, VLAN, ACL/Firewall, MTU/MSS). Ohne das bleibt jeder BGP-Fix fragil.
- Wenn Policy/Parameter auslösend: Rezent geänderte Policies prüfen (Max-Prefix, Route-Map, Auth, TTL/GTSM, Update-Source).
- Wenn Timer/BFD zu aggressiv: Profile temporär konservativer einstellen, um Flap-Schleifen zu durchbrechen.
Warum Flaps Kunden besonders treffen: Statefulness auf dem Datenpfad
Viele Kundendienste hängen von stateful Geräten ab: Firewalls, NAT-Gateways, Load Balancer, Proxies. Ein Pfadwechsel kann dazu führen, dass Rücktraffic nicht mehr zur gleichen State-Instanz zurückkehrt. Das erzeugt scheinbar „mysteriöse“ Applikationsfehler, obwohl IP-Routing technisch wieder funktioniert.
- Asymmetrie: Ein Flap kann kurzzeitig asymmetrische Pfade erzeugen; stateful Geräte droppen dann Rückpakete.
- NAT-State-Verlust: Wenn egress Pfad wechselt, kann ein NAT-Mapping ungültig werden.
- Load-Balancer-Session-Pinning: Flap kann Session-Persistenz brechen, Nutzer werden ausgeloggt oder Sessions resetten.
Nach der Stabilisierung: RCA so dokumentieren, dass der Flap nicht zurückkommt
Wenn das Netz wieder ruhig ist, beginnt der wichtigste Teil: die belastbare Root Cause Analysis. Bei Flaps ist die Gefahr groß, dass Teams „nur stabilisiert“ haben und später nicht mehr nachvollziehen können, was der Trigger war. Dokumentation muss deshalb evidenzbasiert sein.
- Zeitlinie: Startzeit, Flap-Frequenz, Peaks, Zeitpunkt der Mitigation, Zeitpunkt der Stabilisierung.
- Beobachtete Trigger: Interface-Errors, Link-Flaps, ACL-Änderungen, CPU-Spikes, CoPP-Drops, BFD-Events, Max-Prefix Aktionen.
- Wirkung der Maßnahme: Welche Aktion reduzierte Flaps messbar? (z. B. Flaps pro Stunde von 20 auf 0).
- Rückfallrisiko: Was muss dauerhaft angepasst werden (Underlay, Policy, Timer, Monitoring)?
Prävention: BGP Flaps langfristig reduzieren
Die beste Prävention kombiniert robuste Transportpfade, saubere Policies und eine bewusst gewählte Stabilitätsstrategie. Ziel ist nicht, „alles maximal schnell“ zu machen, sondern „vorhersagbar stabil“ – insbesondere in Kundennetzen.
- Transport-Baselines: Interface-Errors, Paketverlust, Jitter, MTU/MSS und Firewall-Statefulness überwachen.
- Konfig-Standards und Templates: Einheitliche Peer-Parameter (Update-Source, TTL/GTSM, Auth, Timer) reduzieren Drift.
- Max-Prefix als Sicherheitsgurt: Schutz vor Leaks, aber mit sauberer Alerting- und Recovery-Logik.
- Graceful Restart bewusst einsetzen: Kann Short-Outages kaschieren, ersetzt aber keine Stabilität. Als Standardreferenz: RFC 4724 (Graceful Restart).
- Dämpfung selektiv: Route Flap Damping nur dort, wo es den Kundennutzen erhöht und keine Second-Outage-Risiken schafft.
- Operational Guardrails: Change-Prozess mit Tests für TCP/179, Rückpfade, Policies und Kapazität auf Backup-Pfaden.
Outbound-Links: Standards und vertiefende Referenzen
- RFC 4271 – BGP-4 (Grundlagen, Zustände, Timer, Session-Verhalten)
- RFC 2439 – Route Flap Damping (Mechanik und Trade-offs)
- RFC 4724 – Graceful Restart (Stabilität bei kurzfristigen Control-Plane-Ereignissen)
- RFC 5880 – Bidirectional Forwarding Detection (BFD) für schnelle Failure Detection
Checkliste zum Kopieren: Kundenauswirkungen minimieren und BGP Flaps stabilisieren
- Impact erfassen: Welche Kunden/Services sind betroffen? Welche Symptome (Loss, Latenz, VPN, DNS)?
- Flap-Typ bestimmen: Session-Flap vs. Route-Flap ohne Session-Down vs. AFI/SAFI-spezifisch.
- Blast Radius begrenzen: Instabilen Peer oder instabilen Pfad kontrolliert isolieren, wenn Redundanz vorhanden ist.
- Überlast nach Traffic-Shift prüfen: Backup-Pfad Kapazität, Drops und Latenz sofort überwachen.
- Transport zuerst stabilisieren: Errors, MTU/MSS, ACL/Firewall/State, VRF/Recursion, Paketverlust/Jitter.
- Timer/BFD prüfen: Zu aggressive Profile können Flaps triggern; konservativer einstellen, um Schleifen zu brechen.
- Dämpfung selektiv einsetzen: Nur wenn es den Gesamtzustand beruhigt und keine Second-Outage-Risiken erzeugt.
- Kundenkommunikation takten: Scope, Symptome, Stabilisierungsschritt, nächstes Update klar angeben.
- Nacharbeit sichern: Zeitlinie, Trigger, Maßnahme und messbare Wirkung dokumentieren; dauerhafte Fixes planen.
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.












