Route-Leak-Response-Plan: Von Detection zu Mitigation in Minuten

Red Snapper

1 month ago

Ein Route Leak gehört zu den wenigen Routing-Ereignissen, bei denen Minuten über großflächige Kundenauswirkungen entscheiden. Das Hauptkeyword „Route-Leak-Response-Plan“ beschreibt daher keinen theoretischen Prozess, sondern ein operatives Versprechen: Detection, Triage und Mitigation müssen so standardisiert sein, dass ein On-Call-Team auch unter Stress reproduzierbar handelt. Ein Leak kann sehr unterschiedlich aussehen – von einem Kunden, der versehentlich Transit-Routen weitergibt, bis zu einem Peer, der interne Präfixe exportiert oder eine falsche Policy auf einen Internet-Exchange anwendet. Die Gemeinsamkeit ist immer dieselbe: BGP ist flexibel, und genau diese Flexibilität muss am Edge mit Guardrails, Telemetrie und klaren Eskalationswegen abgesichert werden. Dieser Artikel liefert einen Route-Leak-Response-Plan, der in großen Provider- und Enterprise-Backbones funktioniert: Welche Signale zuerst geprüft werden, wie Sie den Blast Radius quantifizieren, welche Mitigation-Schritte in welcher Reihenfolge sinnvoll sind, und wie Sie parallel die Grundlage für eine saubere RCA sichern, ohne die Stabilisierung zu verzögern.

Route Leak kurz definiert: Was im Incident wirklich zählt

Operativ ist die wichtigste Definition nicht akademisch, sondern handlungsorientiert: Ein Route Leak liegt vor, wenn Routen in einen Nachbarschaftstyp oder eine Policy-Domäne gelangen, für die sie nicht bestimmt sind. Das kann Outbound passieren (Sie exportieren zu viel) oder Inbound (Sie akzeptieren zu viel) – und beide Varianten erzeugen unterschiedliche Symptome.

Outbound-Leak: Ihr Router exportiert Routen an einen Peer/IX/Kunden, die dort nicht hingehören (häufigste Provider-Ursache).
Inbound-Leak: Sie lernen über einen Nachbarn Routen, die der Nachbar nicht hätte senden dürfen (häufiger Kunden-/Partnerfehler).
Hybrid: Inbound-Leak plus Ihre eigene falsche Weitergabe nach innen oder außen.

Für Problemdefinition und Leak-Klassen ist RFC 7908 (BGP Route Leak: Problemdefinition und Klassifikation) eine gute Referenz. Die BGP-Grundlagen sind in RFC 4271 (BGP-4) beschrieben.

Designprinzip des Response-Plans: Zwei parallele Tracks

Ein Route-Leak-Response-Plan muss zwei Ziele gleichzeitig erfüllen, ohne sich gegenseitig zu blockieren:

Track A: Stabilisieren – Traffic- und Routing-Auswirkungen in Minuten reduzieren.
Track B: Beweise sichern – Daten und Zeitstempel sammeln, damit RCA und Nachweise später belastbar sind.

Die häufigste Incident-Falle ist, dass Teams erst „alles verstehen“ wollen. Bei Leaks ist das riskant. Erst Stabilisierung, dann Tiefenanalyse – aber so, dass die Stabilisierung nicht die Beweislage zerstört.

Detection in Sekunden: Welche Alarme einen Leak zuverlässig anzeigen

Die beste Mitigation ist die, die Sie früh starten. Dafür brauchen Sie Leak-spezifische Detektoren statt generischer „BGP down“-Alarme. In der Praxis sind folgende Signale besonders wirksam:

Prefix-Count-Anomalie pro Session: plötzlicher Sprung (Spike) oder Einbruch.
Update-Rate-Spike: stark erhöhte Announce/Withdraw-Raten in kurzer Zeit.
Unerwartete Origin-AS für kritische Präfixe: bekannte Prefixes tauchen plötzlich mit anderer Origin auf.
RPKI-Invalid-Anteil steigt: wenn Sie RPKI auswerten, ist ein Invalid-Spike ein starkes Indiz.
Traffic-Verlagerung: ungewöhnliche Anstiege an einzelnen Interconnects/Upstreams.

Für Origin-Validierung ist RFC 6811 (BGP Prefix Origin Validation) relevant. Für ein organisatorisches Best-Practice-Framework gegen Leaks eignet sich MANRS.

Erste 60 Sekunden: Sofort-Triage mit einem standardisierten Fragenblock

In den ersten 60 Sekunden muss Ihr Team entscheiden, ob es sich um einen Leak handelt und welcher Track Priorität hat. Bewährt hat sich ein kompakter Fragenblock, der ohne tiefes Routing-Wissen beantwortbar ist:

Ist der Scope lokal oder breit? Ein einzelner Edge vs. mehrere PoPs/Router.
Inbound oder Outbound? Lernen wir „zu viel“ von einem Nachbarn oder exportieren wir „zu viel“?
Welche Nachbarschaftsklasse? Kunde, Peer/IX, Transit/Upstream, Inter-AS.
Gibt es einen zeitlichen Trigger? Change-Window, neue Session, Wartung, DDoS-Event.

Schon diese vier Antworten bestimmen häufig den schnellsten Mitigation-Pfad.

Blast Radius quantifizieren: Von Gefühl zu Messwert in Minuten

„Groß“ ist keine Messung. Für schnelle Entscheidungen brauchen Sie einen quantifizierten Blast Radius. Zwei Metriken reichen meist, um die Schwere objektiv zu priorisieren: Prefix-Veränderung und Update-Rate. Ein einfacher Severity-Indikator kombiniert beide:

Severity = ΔP × U

ΔP ist die Veränderung der Prefix-Anzahl (z. B. neue Prefixes in einer Session oder global), U ist die Update-Rate pro Zeitfenster (z. B. Updates pro Minute). Der Wert ist kein universeller Standard, aber er zwingt zu klarer Datenbasis und funktioniert als Incident-Score zur Priorisierung.

Mitigation-Strategie: „Stop the bleeding“ mit minimalem Kollateralschaden

Bei Route Leaks ist das Ziel, den falschen Routing-Input oder den falschen Export so schnell wie möglich zu stoppen, ohne das Netz zusätzlich zu destabilisieren. Die effektivsten Maßnahmen unterscheiden sich danach, ob es sich um Inbound- oder Outbound-Leaks handelt.

Inbound-Leak: Sie lernen unerwünschte Routen

Schritt 1: Import-Filter schärfen – sofortige Prefix-Whitelist/AS-Path-Whitelist anwenden oder verschärfen.
Schritt 2: LocalPref de-priorisieren – unerwünschte Routen nicht als Best Path wählen, falls ein kompletter Drop zu riskant ist.
Schritt 3: Max-Prefix aktivieren oder Hard-Limit senken – Session begrenzen, um Control-Plane zu schützen.
Schritt 4: Session dämpfen/abschalten – wenn der Leak massiv ist oder wenn Filter nicht schnell genug greifen.

Die Reihenfolge ist absichtlich so gewählt: Erst versuchen, den Leak ohne harte Session-Downs zu stoppen, dann eskalieren.

Outbound-Leak: Sie exportieren unerwünschte Routen

Schritt 1: Export-Policy auf „deny by default“ – sofortige Blockade für alle nicht explizit erlaubten Routen.
Schritt 2: Community-/Tag-Guardrails – Export nur, wenn eine Route ein definiertes Tag trägt (z. B. „customer-only“).
Schritt 3: Session temporär abschalten – wenn Sie nicht in Minuten sicher sind, dass Export korrekt ist.
Schritt 4: Kontaktieren des Peers/IX-NOC – parallel, um externe Filterung oder Blackholing anzustoßen.

Outbound-Leaks sind reputationskritisch. „Lieber kurz weniger exportieren“ ist meist der bessere Trade-off als „weiterleaken und hoffen“.

Mitigation-Toolbox: Maßnahmen, die in Minuten wirken

Ein Response-Plan braucht eine definierte Toolbox. Wichtig ist, dass diese Toolbox als Templates existiert und nicht improvisiert wird.

Prefix- und AS-Path-Filter

Prefix-Whitelist (besonders für Kunden): erlaubt nur bekannte Präfixe und sinnvolle Längen.
AS-Path-Whitelist/Origin-Check: verhindert, dass Kunden Transit-Routen oder fremde Origins einspeisen.
Bogon-/Reserved-Filter: schützt vor Spezialbereichen; Grundlage liefern die IANA-Register für IPv4 Special-Purpose Address Registries und IPv6 Special-Purpose Address Registries.

Max-Prefix und Warnschwellen

Max-Prefix sollte nicht nur als „Hard kill“ existieren. In großen Netzen braucht es eine Warnschwelle, damit Sie handeln können, bevor Sessions fallen. Eine einfache Herleitung:

Max_Prefixes = P_expected × f_safety

P_expected ist die erwartete Prefix-Anzahl, f_safety ein Sicherheitsfaktor. Zusätzlich sollte es eine Warnschwelle geben, z. B. bei 80–90 % des Hard-Limits, damit automatisierte Alerts zuverlässig anschlagen.

RPKI-Policy (Valid/Invalid/NotFound)

Invalid kann verworfen oder stark de-priorisiert werden, je nach Risikoprofil.
NotFound sollte beobachtet werden, da viele Netze noch nicht vollständig mit ROAs abgedeckt sind.
Valid kann als positives Signal für „vertrauenswürdige“ Origins genutzt werden.

RPKI ersetzt keine Filter, aber es reduziert die Anzahl der „plausiblen“ falschen Origins und verbessert die Beweisführung im Incident. Einstieg: RFC 6811.

Traffic-Steuerung als temporäre Entlastung

De-Preferencing (LocalPref runter) für verdächtige Pfade, wenn ein harter Drop zu riskant wäre.
Community-basierte Export-Steuerung (No-Export, Scope-Reduktion), wenn Ihr Community-Design sauber standardisiert ist.
Selective withdraw kritischer Announcements, falls Sie selbst falsch announcen.

Diese Maßnahmen sollten im Playbook als klarer „Fallback“ stehen, nicht als Standardlösung, weil sie die Ursachenanalyse verschleiern können.

Kommunikation im Incident: Wer wann welche Informationen braucht

Ein Route Leak ist fast immer ein Multi-Party-Incident. Der Response-Plan sollte daher Kommunikationsschritte enthalten, die parallel zur Mitigation laufen:

Intern (NOC/Backbone/Peering): Scope, betroffene Sessions, erste Mitigation, nächster Checkpoint (z. B. 10 Minuten).
Extern (Customer/Peer/Transit/IX): klare Facts: betroffene Prefixes/ASNs, Zeitraum, beobachtete Symptome, gewünschte Aktion (Filter/Session-Shutdown).
Status-Kommunikation: was wurde getan, was ist der messbare Effekt (Prefix-Count normalisiert, Update-Rate sinkt).

Wichtig ist die Formulierung: In den ersten Minuten kommunizieren Sie Hypothesen als Hypothesen – und Facts als Facts. Das reduziert Eskalationschaos und beschleunigt Zusammenarbeit.

Beweise sichern: Welche Daten Sie sofort „einfrieren“ sollten

Während Track A stabilisiert, muss Track B Daten sichern. Diese Daten sind später entscheidend für RCA, Partnerkommunikation und ggf. regulatorische Nachweise.

Zeitstempel: erster Alarm, erster Flap, Beginn der Prefix-Anomalie, Mitigation-Zeitpunkte.
Routing-Snapshots: RIB/Adj-RIB-In vor und nach Mitigation (insbesondere für die verdächtige Session).
Prefix- und Update-Statistiken: Verlauf über das Incident-Fenster (nicht nur „aktueller Wert“).
Policy-Stand: export/import-Konfiguration, Template-Version, letzter Change (Commit-ID, Change-Ticket).
Top betroffene Prefixes/ASNs: die „härtesten“ Beispiele, die den Leak beweisen (z. B. neue Origin-AS).

Wenn Sie externe Sicht benötigen, helfen Route-Collector-/Looking-Glass-Quellen und Messplattformen wie RIPE Atlas, um zu zeigen, wie sich Pfade außerhalb Ihres Netzes verändert haben.

Beweisführung für Inbound vs. Outbound: So vermeiden Sie Fehlzuordnung

Eine häufige Fehlerquelle ist die falsche Zuordnung, ob Sie der Ursprung des Leaks sind oder nur „Opfer“. Die folgenden Indikatoren sind in der Praxis hilfreich:

Outbound-Leak-Indikator: Ein Peer meldet, dass er von Ihnen unerwartete Routen erhalten hat; Ihre Export-Samples zeigen plötzlich zusätzliche Klassen (z. B. Transit-Routen an Peers).
Inbound-Leak-Indikator: Sie sehen plötzlich viele zusätzliche Prefixes von einem Kunden/Peer, die nicht zu dessen üblichen Prefix-Sets passen; Prefix-Count steigt in genau dieser Session.
Globaler Kontext: Externe Observations zeigen Ihre AS als neuen Transitpfad für Ziele, die vorher nicht über Sie liefen.

In vielen Fällen ist die Wahrheit unbequem: Ein inbound-leakender Kunde plus Ihre zu offene Weitergabe erzeugt den Großschaden. Genau dafür muss das Playbook beide Seiten abdecken.

Automatisierung: Wie Sie von „Minuten“ auf „Sekunden“ kommen, ohne Risiken zu erhöhen

Automatisierung ist bei Leaks sinnvoll, aber nur, wenn sie Guardrails respektiert. Typische Automations-Bausteine:

Anomaly Detection: automatische Erkennung von Prefix-/Update-Spikes pro Session.
Auto-Quarantine: temporäres De-Preferencing oder Import-Rate-Limit, wenn eine Session extrem ausreißt.
Policy-Templates als Single Source of Truth: verhindert Drift und beschleunigt sichere Mitigation.
Precomputed „Break-Glass“-Policies: vordefinierte Notfall-Filter, die ohne kreative Eingriffe angewendet werden können.

Wichtig ist ein klarer Grenzwert, ab dem Automatik eingreift, und ein Prozess, wie das Team die Automatik im Incident übersteuert oder bestätigt.

Post-Incident-Fähigkeiten, die im Incident schon vorbereitet werden

Auch wenn der Response-Plan keine Schlussfolgerung enthalten soll, müssen Sie im Incident bereits Daten sammeln, die später die nachhaltige Verbesserung ermöglichen. Dazu gehören:

Welche Guardrails fehlten? fehlende Prefix-Whitelist, zu hohe Max-Prefix-Werte, fehlende Export-Default-Deny.
Welche Alarmierung war zu spät? fehlende Update-Rate-Alarme, fehlende Origin-Anomaly-Checks.
Welche organisatorische Lücke gab es? kein klarer Kontakt zum Peer/IX, unklare Eskalationsmatrix, fehlendes Runbook für Break-Glass.

Outbound-Links für Standards und Best-Practice-Rahmen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.