Route-Leak-Response-Plan: Mitigation in Minuten (Provider Runbook)

Red Snapper

1 month ago

Ein Route-Leak-Response-Plan ist im Provider-Betrieb kein „Nice-to-have“, sondern eine Überlebensfunktion: Route Leaks können in wenigen Minuten weltweite Auswirkungen erzeugen, weil falsche Ankündigungen (Announcements) Trafficströme umleiten, Congestion verschieben und im Extremfall Blackholing auslösen. Das Tückische dabei: Die BGP-Session bleibt häufig stabil, Interfaces sind „up“, und trotzdem kippt die Routing-Wahrheit. Genau deshalb muss Mitigation in Minuten funktionieren – mit klaren Rollen, Stop-Kriterien, vordefinierten Aktionen und einem Evidence Pack, das sofort eskalationsfähig ist. Ein guter Route-Leak-Response-Plan trennt strikt zwischen Detection (wie erkennen wir es), Containment (wie stoppen wir die Ausbreitung), Stabilisierung (wie bringen wir Routing und Traffic wieder in ein Normalband) und Nacharbeit (wie verhindern wir Wiederholung). Dieses Provider Runbook fokussiert auf schnelle, sichere Maßnahmen: Prefix Count und Churn als Trigger, rollenbasierte Policy-Entscheidungen (Customer vs. Peer vs. Transit), kontrollierte Filter-/Max-Prefix-Interventionen, koordinierte Kommunikation und eine Post-Mitigation-Validierung, die Second Outages verhindert. Für BGP-Grundlagen ist RFC 4271 eine zentrale Referenz; für rollenbasierte Leak-Prävention und -Erkennung ist RFC 9234 besonders relevant.

Was dieses Runbook leisten muss

Ein Route-Leak-Response-Plan ist nur dann nützlich, wenn er im Incident ohne Diskussion sofort anwendbar ist. Dafür braucht er drei Eigenschaften:

Tempo: Entscheidungen innerhalb weniger Minuten, nicht erst nach „vollständiger Analyse“.
Sicherheit: Mitigation darf den Schaden nicht vergrößern (z. B. durch unnötige Session-Resets oder zu harte Filter).
Beweisführung: Telemetrie muss die Entscheidung stützen (Prefix Count, Update/Withdraw Rate, Top neue AS-PATHs).

Definition: Route Leak im Provider-Kontext

Operativ ist ein Route Leak eine Policy-Verletzung in der Route-Propagation: Ein Nachbar kündigt Routen an, die er gemäß Rolle nicht ankündigen darf (z. B. Customer kündigt Transit-Routen an), oder ein Provider kündigt Routen in eine Richtung an, in die sie nicht gehören (z. B. Peer- oder Transit-Routen an andere Peers). Das Problem kann auf zwei Seiten liegen: Der Leak kann von außen in Ihr Netz kommen oder von Ihnen nach außen gehen. Beide Fälle sind kritisch, aber „Leak aus Ihrem Netz“ ist besonders riskant, weil Sie selbst zur Quelle werden können.

Rollenmodell: Customer, Peer, Transit als Entscheidungsgrundlage

Die schnellste Triage basiert auf Rollen. Ohne Rollenmodell wird jede Mitigation zum Ratespiel.

Customer: darf typischerweise nur eigene Präfixe (und ggf. Kundenpräfixe) senden, aber keine Full Table.
Peer: tauscht in der Regel eigene und Kundenpräfixe, aber nicht die vollständigen Transit-Routen.
Transit: sendet sehr viele Routen; hier ist ein „Prefix Count hoch“ nicht automatisch Leak, sondern eher Churn/Instabilität relevant.

Trigger: Wann das Runbook startet

Damit „Mitigation in Minuten“ realistisch ist, müssen Trigger eindeutig sein. Die folgenden Trigger sind praxistauglich, weil sie schnell messbar sind und eine hohe Trefferquote haben.

Prefix Count Spike: received oder accepted prefixes springen deutlich über Baseline.
Advertised Prefix Spike: Sie announcen plötzlich deutlich mehr an einen Peer/Transit als üblich.
Churn Spike: Update-/Withdraw-Rate steigt massiv (Routing-Storm), häufig als Leak-Vorläufer oder Begleiteffekt.
Traffic Shift: unerwartete Auslastungssprünge an Peering-/Transit-Ports ohne erklärenden Change.

Minimaler Trigger über Abweichung (MathML)

ΔP = P_current − P_baseline
Alert ⇐ |ΔP| ≥ P_abs ∧ |ΔP| P_baseline ≥ P_rel

Rollen und Verantwortlichkeiten im Incident

Damit Entscheidungen nicht blockieren, sollte ein Provider-Runbook Rollen klar definieren. Eine schlanke Struktur reicht:

Incident Lead: entscheidet Stop/Go, priorisiert Maßnahmen, hält Timeline.
Routing Engineer: prüft Policy/Prefix-Counts, führt Filter-/Max-Prefix-Aktionen durch.
NOC Operator: sammelt Telemetrie (Counts, Churn, Interface), startet Standardprobes, erstellt Evidence Pack.
Peer/Carrier Liaison: kommuniziert mit externen Parteien (Peer NOC, IXP, Kunden), koordiniert Rollback/Bestätigung.

Mitigation in Minuten: Der Ablauf in Phasen

Der Ablauf ist bewusst so gestaltet, dass Sie innerhalb von 5–10 Minuten „Containment“ erreichen, ohne erst eine perfekte RCA zu schreiben. Die Phasen sind: Identifizieren → Eindämmen → Stabilisieren → Validieren.

Phase 1: Identifizieren (0–3 Minuten)

Ziel: Feststellen, ob der Leak sehr wahrscheinlich ist, und ob er inbound oder outbound ist. In dieser Phase geht es nicht um Vollständigkeit, sondern um die richtige Richtung.

1) Session-Rolle feststellen: Customer/Peer/Transit.
2) Welche Count-Kategorie ist betroffen? received, accepted oder advertised?
3) Größe und Geschwindigkeit: Sprung oder Churn? (ein Sprung ist Leak-verdächtiger, Churn eher Storm/Instabilität).
4) Traffic-Impact Quick Look: Peering-/Transit-Ports: ungewöhnliche Auslastungsverschiebung?

Entscheidungsregel „Leak wahrscheinlich“

Customer: großer received/accepted Spike → Leak sehr wahrscheinlich.
Peer: advertised Spike oder received Spike deutlich über Baseline → Leak wahrscheinlich, je nach Peering-Agreement.
Transit: eher Churn/Update-Rate und Policy-Indizien prüfen; Prefix Count allein ist weniger aussagekräftig.

Phase 2: Eindämmen (3–10 Minuten)

Ziel: Stoppen der weiteren Verbreitung. Im Idealfall dämpfen Sie die falschen Announcements, ohne die komplette Session zu resetten. Die wichtigsten Maßnahmen sind bewusst „defensiv“: limitieren, filtern, dämpfen.

Mitigation A: Inbound Leak von Customer/Peer – defensive Ingress-Filter aktivieren

Maßnahme: Ingress-Policy auf die erlaubte Menge und erlaubte Quellen zurückführen (Prefix-Liste, AS-PATH-Filter, Rollenpolicy).
Warum schnell: wirkt sofort auf accepted routes; verhindert, dass falsche Routen in Ihr Netz gelangen.
Risiko: zu harte Filter können legitime Präfixe kappen; daher mit „Top-N Beispielen“ gegenprüfen.

Mitigation B: Max-Prefix als Notbremse – Threshold und Hard Limit

Max-Prefix ist eine der effektivsten „Minuten“-Mitigations, wenn sie vorbereitet ist. Sie kann die Session schützen oder zumindest früh warnen, bevor Sie die komplette Route-Flut akzeptieren.

Maßnahme: Max-Prefix-Threshold (Warnung) und Hard Limit (Schutz) aktivieren oder temporär senken.
Warum schnell: wirkt ohne komplexe Filterlogik; ideal bei Customer-Leaks.
Risiko: Hard Limit kann Session resetten; das kann Traffic verschieben und kurzfristig Impact erzeugen.

Hard-Limit-Logik (MathML)

Protect ⇐ P_received > P_max

Mitigation C: Outbound Leak aus Ihrem Netz – Export sofort begrenzen

Wenn advertised prefixes unerwartet steigen, ist das ein Alarm mit hoher Priorität. Hier gilt: Erst stoppen, dann erklären.

Maßnahme: Export-Policy auf „known-good“ zurücksetzen (Template), oder temporär nur eigene + Kundenrouten exportieren.
Option: im Notfall Advertisement des betroffenen Neighbors temporär blockieren, statt global das Routing umzustellen.
Risiko: zu starke Export-Reduktion kann legitime Reachability reduzieren; deshalb fokussiert auf den betroffenen Peer/Transit.

Mitigation D: Community-basierte Dämpfung (wenn vorbereitet)

Viele Provider nutzen Communities, um Routen gezielt zu steuern (z. B. no-export, blackhole, peer-specific). Wenn Ihr Policy-Design das unterstützt, können Communities eine schnelle, granulare Mitigation ermöglichen.

Maßnahme: temporär „no-export“ oder entsprechende Export-Reduktionscommunities setzen, um Leak-Propagation zu stoppen.
Risiko: Community-Interpretation muss eindeutig sein; in Multi-Vendor/Peer-Umgebungen nicht blind darauf verlassen.

Phase 3: Stabilisieren (10–30 Minuten)

Nach Containment ist das Ziel, das Netz in ein stabiles Normalband zurückzuführen: Routing-Tabellen beruhigen, Churn sinkt, Traffic normalisiert sich. In dieser Phase sind zwei Dinge entscheidend: (1) keine unnötigen Session-Resets, die weitere Rekonvergenzstürme auslösen, und (2) gezielte Validierung, dass der Leak nicht mehr propagiert wird.

Churn reduzieren: prüfen, ob Update/Withdraw Rate zurückgeht; ggf. Damping/Rate-Limits in Betracht ziehen (vorsichtig, um legitime Rekonvergenz nicht zu behindern).
Traffic-Shift beobachten: Peering-/Transit-Auslastung sollte sich stabilisieren; Congestion-Indizien (Queue Drops) prüfen.
Scope eingrenzen: Welche Session(s) sind Quelle? Welche Richtung (inbound/outbound)?

Phase 4: Validieren (30–60 Minuten, parallel zur Stabilisierung)

„All Clear“ ist erst erlaubt, wenn Messwerte wieder im Baseline-Band sind. Route Leaks können „nachglimmen“, weil andere Netze noch falsche Pfade gewählt haben oder weil Withdraws zeitverzögert ankommen.

Prefix Count normalisiert: received/accepted/advertised wieder in Baseline-Nähe.
Top-N neue Präfixe verschwunden: zuvor auffällige Präfixe sind nicht mehr in der Learned-Set (oder werden korrekt gefiltert).
Churn normalisiert: Update/Withdraw Rate sinkt deutlich und bleibt stabil.
Traffic und Latenz stabil: keine neuen Congestion-Spitzen, kein anhaltender Packet Loss.

Stop-Kriterien: Wann Sie eskalieren oder „hart“ durchgreifen müssen

Manche Leaks sind so groß, dass „sanfte“ Filter nicht reichen. Dann brauchen Sie klare Stop-Kriterien für harte Maßnahmen (z. B. Session temporär deaktivieren), um das Backbone zu schützen.

Control Plane in Gefahr: CPU-Spikes, BGP-Instabilität, IGP flaps durch Überlast.
Globaler Traffic-Impact: Congestion auf mehreren Core-Links, breitflächige Kundenausfälle.
Leak-Quelle bestätigt, aber nicht erreichbar: Kunde/Peer reagiert nicht, Leak hält an.
Filter nicht schnell genug: Prefix Count wächst weiter trotz Maßnahmen.

In solchen Fällen ist eine temporäre Session-Deaktivierung oder ein sehr striktes Max-Prefix/Filter-Set oft die sauberere Wahl, solange es kontrolliert und dokumentiert passiert.

False Positives und legitime Events: Wie Sie nicht „zu früh“ hart reagieren

Ein Prefix-Count-Spike kann auch legitime Ursachen haben, etwa geplante Deaggregation (DDoS-Mitigation), Wartung beim Upstream oder ein Session-Reset mit anschließendem Full Re-Advertise. Um False Positives zu reduzieren, helfen diese Checks:

Change-Korrelation: gab es ein geplantes Maintenance-Fenster oder einen Policy-Rollout?
Received vs. accepted: wenn accepted stabil bleibt, filtern Sie vermutlich korrekt (Peer hat Problem, aber Ihr Netz ist geschützt).
Churn-Profil: ein einmaliger Sprung mit anschließend stabiler Lage ist anders als dauerhaftes Wachstum.
Role-Realität: Transit-Sessions haben naturgemäß große Counts; hier ist „ungewöhnliche neue AS-PATHs“ oft aussagekräftiger.

Monitoring-Set: Was Sie für „Mitigation in Minuten“ zwingend brauchen

Ohne passende Telemetrie ist ein 10-Minuten-Response kaum möglich. Mindestens diese Signale sollten pro Session verfügbar sein:

Prefix Counts: received, accepted, advertised (v4/v6 getrennt).
Churn: Update-Rate und Withdraw-Rate pro Zeitfenster.
Max-Prefix Events: Threshold/Hard Limit Trigger.
Top-N neue Präfixe: Beispiele (z. B. 20 neue Präfixe), um Leak-Signatur schnell zu belegen.
Top-N neue AS-PATHs/ASNs: plötzlich auftauchende Transits bei Customer-Sessions sind Leak-verdächtig.
Traffic-Impact: Peering-Port-Auslastung, Queue Drops, Loss/Latency-Probes zu Referenzzielen.

Evidence Pack: Standardpaket für Peer-/Kunden-Eskalation

Wenn Sie extern eskalieren, zählt Geschwindigkeit. Ein sauberes Evidence Pack verhindert Rückfragen und beschleunigt Fixes auf der Gegenseite.

Zeitfenster (UTC): Start, Peak, Mitigation-Start, aktueller Status.
Session-Identität: Peer-ASN, Session-IP(s), IXP/Standort, Interface/LAG, Rolle (Customer/Peer/Transit).
Prefix Count Graphs: received/accepted/advertised mit Baselinevergleich.
Churn-Graph: Updates/Withdraws (Storm-Indizien).
Beispiele: Top neue Präfixe, Top neue AS-PATHs, auffällige Communities.
Mitigation-Actions: welche Filter/Max-Prefix/Export-Policies wurden gesetzt.
Impact-Indizien: Traffic-Shift, Congestion, Loss/Latency (wenn relevant).

Kommunikation: War-Room-Disziplin im Route-Leak-Fall

Route Leaks sind oft organisationsübergreifend. Kommunikation muss parallel zur Technik laufen, sonst verlieren Sie Zeit.

Intern: Incident Lead + Routing Engineer + NOC; klare Timeline, klare Owner.
Extern: Peer NOC/Kunde/IXP zeitnah informieren – mit Evidence Pack light, nicht mit „wir glauben“.
Status-Frequenz: kurze Updates (z. B. alle 10–15 Minuten), bis Containment bestätigt ist.

Corrective Actions: Was nach dem Incident dauerhaft schützt

Ein Runbook ist reaktiv. Nachhaltig wird es, wenn Sie aus dem Incident Guardrails bauen, die Wiederholung verhindern oder deutlich früher erkennen.

Rollenbasierte Templates: Customer/Peer/Transit eindeutig; Bezug zu RFC 9234 (BGP Roles).
Max-Prefix Standard: pro Rolle feste Defaults, mit dokumentierten Ausnahmen.
RPKI/IRR-Filter: Routing-Security und Policy-Hygiene; als praxisnahe Quelle sind MANRS Best Practices hilfreich.
Prefix-Count-Alerting: Baseline/Thresholds pro Session; automatisch Top-N Beispiele anhängen.
Change-Validation: nach Policy-Changes immer „advertised prefixes“ prüfen, nicht nur Session-Status.
Game Days: Route-Leak-Drills im Lab: Templates absichtlich falsch anwenden, Detection und Response üben.

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.