BGP am Edge: Filtering, Route-Leak-Impact und Best Practices

Red Snapper

1 month ago

Das Hauptkeyword „BGP am Edge“ steht in Provider- und Enterprise-Backbones für den kritischsten Übergabepunkt zwischen Verantwortungssphären: hier treffen Kunden, Peers, Upstreams, Internet Exchanges und interne Domänen aufeinander. Genau an dieser Stelle entstehen die folgenschwersten Routing-Incidents – nicht weil BGP „unsicher“ wäre, sondern weil BGP bewusst flexibel ist und deshalb konsequenten Schutz braucht. Ohne sauberes Filtering, klare Policies und belastbare Guardrails kann ein einzelner Fehler (oder ein kompromittierter Router) zu einem Route Leak, einer massiven Umleitung von Traffic, großflächigen Reachability-Problemen oder sogar zu globalen Ausfällen führen. Operativ ist der Edge zudem der Ort, an dem Sicherheit und Verfügbarkeit miteinander konkurrieren: strenge Filter reduzieren Risiko, erhöhen aber die Gefahr von Fehlkonfigurationen, wenn Prozesse unklar sind. Dieser Artikel zeigt, wie Sie BGP am Edge so gestalten, dass Filtering und Routing-Hygiene nicht zur Bremse, sondern zur Stabilitätsbasis werden. Im Fokus stehen Route-Leak-Impact, Best Practices für Prefix- und AS-Path-Filter, Max-Prefix-Schutz, RPKI-Validierung, Community-Design, Session-Hardening sowie Monitoring- und Change-Methoden, die in großen Netzen skalieren.

Warum BGP am Edge anders ist als „BGP intern“

Interne BGP-Sessions (iBGP) werden in der Regel in einem kontrollierten Umfeld betrieben: definierte Prefix-Sets, standardisierte Policies, zentrale Template-Mechanismen und klarer Ownership. Am Edge ist das Gegenteil der Fall: Sie sprechen mit externen Parteien, die eigene Policies, eigene Fehler und eigene Ziele haben. Drei Unterschiede sind entscheidend:

Unvertrauensmodell: Externe Nachbarn dürfen nie als „korrekt“ angenommen werden. Jeder Input muss validiert und begrenzt werden.
Blast Radius: Edge-Fehler wirken nach außen (Peers/Upstreams) und nach innen (Kunden/Backbone) – der Impact ist damit oft überproportional.
Heterogenität: Jede Session kann andere Anforderungen haben (Kunde vs. Transit vs. IX), was ohne Standardisierung schnell zu Policy-Spaghetti führt.

Die BGP-Basis ist in RFC 4271 beschrieben. Der Standard ist absichtlich generisch – die Sicherheit und Stabilität entstehen durch Ihre Implementierung am Edge.

Route Leaks verstehen: Was genau ist ein Leak und warum ist der Impact so groß?

Ein Route Leak ist vereinfacht gesagt die ungewollte Weitergabe von Routen an eine falsche Nachbarschaft oder in eine falsche Policy-Domäne. Klassische Beispiele sind:

Kundenrouten werden an andere Kunden weitergegeben (Kunde A sieht plötzlich Präfixe von Kunde B).
Transit-Routen werden an Peers geleakt (Peer erhält plötzlich Routen, die nur für Upstream/Transit bestimmt waren).
„Full table“ wird an einen Kunden geleakt (Kunde ohne Kapazität/Policy bekommt Internet-Routing und verursacht Instabilität).
Private oder interne Präfixe verlassen die eigene AS (Informationsleck plus potenzielle Blackholes).

Der Impact wird so groß, weil BGP nicht nur Reachability, sondern auch Pfadwahl beeinflusst. Ein Leak kann Traffic auf falsche Pfade ziehen (Suboptimal Routing), Kapazitäten überlasten oder Teile des Internets in Sackgassen leiten. Für eine gute Einordnung des Problems und empfohlene Gegenmaßnahmen ist RFC 7908 (Route Leak Problem) hilfreich.

Edge-Filtering als Sicherheitsgurt: Drei Schichten, die zusammen wirken

Sauberes BGP-Filtering besteht nicht aus einer einzigen Regel, sondern aus mehreren Schichten, die sich gegenseitig absichern. Im Betrieb haben sich drei Schichten bewährt:

Schicht 1: Session-Guardrails (Max-Prefix, Dampening-Strategien, Timer, MD5/TCP-AO, TTL Security).
Schicht 2: Validierung (Prefix-Filter, AS-Path-Filter, RPKI, Bogon-Filter, Next-Hop-Policy).
Schicht 3: Export-Policy (was dürfen Sie überhaupt an wen announcen; Communities, Route-Maps, Leak-Prevention).

Die wichtigste Erkenntnis: Selbst wenn Schicht 2 perfekt ist, kann eine falsche Export-Policy immer noch einen Leak erzeugen. Deshalb muss der Schwerpunkt am Edge oft auf „was exportiere ich“ liegen.

Prefix-Filtering: Die wichtigste Pflichtregel am Kunden-Edge

Prefix-Filter sind die minimal notwendige Hygiene, um zu verhindern, dass Kunden oder Partner unerwartete Routen einspeisen. In der Praxis bedeutet das:

Explizite Prefix-Listen pro Nachbar: Erlauben Sie nur die Präfixe, die der Kunde/Partner besitzen darf.
Längenbegrenzung: Definieren Sie akzeptable Prefix-Längen (z. B. /24 für IPv4, /48 für IPv6 als typische Grenzen, abhängig von Policy).
Denial by default: Alles, was nicht explizit erlaubt ist, wird verworfen.

Wo keine kundenspezifischen Prefix-Sets möglich sind (z. B. bei Peering oder Transit), werden Bogon- und Reserved-Range-Filter umso wichtiger. Als Hintergrund zu IP-Adressreservierungen sind IANA-Übersichten nützlich, etwa über IPv4 Special-Purpose Address Registries und IPv6 Special-Purpose Address Registries.

AS-Path-Filtering und Origin-Hygiene: Wer darf was originieren?

Prefix-Filter allein verhindern nicht alle Leaks. Ein Kunde könnte ein Präfix announcen, das zwar „plausibel“ aussieht, aber nicht zu seiner AS gehört, oder er könnte Transitrouten weiterreichen. AS-Path- und Origin-Checks helfen hier:

Origin-AS validieren: Bei Kunden ist oft klar: Routen müssen aus einer definierten AS (oder einem Set) originieren.
AS-Path-Längen und Pattern: Unerwartete Pfadmuster (z. B. plötzlich viele AS-Hops) sind ein Leak-Indikator.
Keine Transitrouten von Kunden: Kunden sollen in der Regel nur ihre eigenen Präfixe announcen, nicht „die Welt“.

In der Praxis ist die Kombination aus Prefix-Whitelist und erlaubtem Origin-AS-Set für Kunden die robusteste Baseline.

Max-Prefix und Rate-Limits: Den Blast Radius aktiv begrenzen

Max-Prefix ist eine der wirksamsten Schutzmaßnahmen gegen „Full table“-Fehler, Route-Stürme und unbeabsichtigte Massenannouncements. Die Idee: Sie definieren, wie viele Prefixes eine Session maximal akzeptieren darf. Wird der Grenzwert überschritten, wird die Session gedrosselt oder heruntergefahren (plattformabhängig). Entscheidend sind zwei Dinge:

Der Grenzwert muss realistisch sein: zu niedrig erzeugt False Positives, zu hoch schützt nicht.
Warnschwelle und Hard-Limit trennen: früh warnen, bevor die Session hart fällt.

Eine einfache Herleitung für ein Hard-Limit kann auf einem Sicherheitsfaktor basieren:

Max_Prefixes = P_expected × f_safety

Hier steht P_expected für die erwartete Prefix-Anzahl (gemessen über ein repräsentatives Zeitfenster) und f_safety für einen Sicherheitsfaktor (z. B. 1,2 bis 2,0, abhängig von Volatilität und Business-Risiko). Zusätzlich sollten Sie Update-Rate-Monitoring einsetzen: ein Leak kann auch mit wenigen Prefixes sehr viele Updates erzeugen und damit Control-Plane-Last treiben.

RPKI am Edge: Validierung gegen falsche Origins

RPKI (Resource Public Key Infrastructure) ist für viele Operatoren ein zentraler Baustein, um falsche Origin-AS-Informationen zu erkennen. Statt nur mit lokalen Prefix-/AS-Listen zu arbeiten, können Sie eingehende Routen gegen kryptografisch abgesicherte ROAs (Route Origin Authorizations) validieren. Dadurch werden viele klassische „Origin Hijacks“ und einige Leak-Szenarien einfacher zu erkennen und zu blocken.

Valid-Policy: Routen mit „valid“ werden akzeptiert (je nach Policy).
Invalid-Policy: „invalid“ wird typischerweise verworfen oder stark degradiert (LocalPref runter).
NotFound: je nach Risikoprofil akzeptieren, aber beobachten.

Als Einstieg bietet sich RFC 6811 (BGP Prefix Origin Validation) an. Wichtig ist die operative Umsetzung: RPKI ist nicht „einmal einschalten“, sondern braucht Monitoring, Caching-Design und einen klaren Rollout-Plan, um unerwartete Drops zu vermeiden.

Export-Policy: Der häufigste Grund für Route Leaks

In der Praxis entstehen viele Route Leaks nicht durch „böse“ Kunden, sondern durch fehlerhafte Export-Policies auf Provider-Seite. Ein klassisches Beispiel: Eine Route-Map, die eigentlich nur Kundenrouten an einen Upstream exportieren soll, greift plötzlich auch für Peer-Sessions, oder eine Community-Logik wird inkonsistent angewendet. Best Practices für Export-Policy am Edge:

Policy nach Nachbar-Typ trennen: Kunde, Peer, Transit und Inter-AS sollten getrennte Baseline-Policies haben.
Default-Export ist „nichts“: Export erfolgt nur, wenn eine Route explizit in die Export-Policy fällt.
Communities als Steuerinstrument standardisieren: klare Bedeutung, dokumentiert, konsistent implementiert.
Keine „catch-all“ Regeln: am Edge sind catch-all Exports ein Leak-Risiko.

Communities und Hygiene: Steuerung ohne Wildwuchs

BGP-Communities sind ein mächtiges Werkzeug, um Policies zu steuern (LocalPref, Blackholing, Traffic Engineering, No-Export). Gleichzeitig sind sie eine typische Quelle von Missverständnissen zwischen Teams und zwischen AS-Partnern. Gute Hygiene umfasst:

Community-Katalog: eine zentrale, versionierte Dokumentation (Bedeutung, Gültigkeitsbereich, Beispiele).
Trennung von „intern“ und „extern“: nicht jede interne Steuercommunity darf nach außen gelangen.
Well-known Communities bewusst nutzen: z. B. NO_EXPORT; Referenz dazu ist RFC 1997.
Blackhole-Communities absichern: Blackholing ist nützlich, aber muss gegen Missbrauch geschützt sein (Whitelist, Rate Limits, Logging).

Session-Hardening: Schutz der BGP-Session selbst

Routing-Hygiene endet nicht bei Prefixes. Die Session selbst ist ein Angriffs- und Fehlerpunkt. Typische Maßnahmen:

GTSM (TTL Security): schützt eBGP-Sessions, indem nur Nachbarn im erwarteten Hop-Abstand akzeptiert werden; siehe RFC 5082.
TCP-AO oder MD5: Authentisierung des TCP-Transports; TCP-AO ist in RFC 5925 beschrieben.
Control-Plane Protection (CoPP): BGP, BFD und essentielle Control-Pakete müssen zuverlässig durchkommen, ohne dass das Gerät bei Last kollabiert.
Graceful Restart / Session-Resilience: vorsichtig einsetzen und konsequent testen, um „ghost routes“ zu vermeiden.

Im Betrieb ist die wichtigste Regel: Hardening muss standardisiert sein. Einzelne „besonders sichere“ Sessions helfen wenig, wenn die Mehrzahl der Edge-Peers ungeschützt bleibt.

Route-Leak-Impact messen: Was im Incident wirklich zählt

Wenn ein Leak passiert, wollen NOC- und Backbone-Teams sofort verstehen: Wie groß ist der Blast Radius? Welche Kunden/Regionen sind betroffen? Ist es ein Export- oder Import-Problem? Praktisch bewährt sich eine Impact-Sicht, die technische und betriebliche Indikatoren kombiniert:

Anzahl betroffener Prefixes: wie viele neue oder geänderte Routen sind in kurzer Zeit aufgetaucht?
Update-Rate: wie stark steigen BGP-Updates (Announcements/Withdraws)?
Traffic-Verlagerung: verändern sich NetFlow/sFlow/Interface-Auslastungen abrupt?
Reachability-Symptome: steigen Loss/Latency in bestimmten Regionen oder über bestimmte Exit-Punkte?
FIB-Druck: haben Router FIB-Stalls oder Speicher-/TCAM-Probleme?

Ein einfacher Indikator für akute Schwere ist die kombinierte Änderung aus Prefix-Anzahl und Update-Rate, weil sie sowohl RIB- als auch Control-Plane-Stress abbildet:

Severity ∝ ΔP × U

Hier ist ΔP die Veränderung der Prefix-Anzahl (z. B. neu gelernt) und U die Update-Rate in einem kurzen Fenster. Das ist kein „wissenschaftlicher“ Score, aber ein brauchbarer Incident-Hinweis, ob Sie sofort aggressiv mitigieren müssen.

Best Practices für Edge-Design: Templates statt Einzelkunst

Die größte operative Verbesserung entsteht, wenn BGP am Edge als standardisiertes Produkt betrieben wird. Das heißt: wenige, klar definierte Neighbor-Typen mit festen Policies und Guardrails. Typische Template-Klassen sind:

Kunden-eBGP: strikte Prefix-Whitelists, Origin-AS-Checks, Max-Prefix, optional Blackhole, klare Communities.
Peering (IX/PNI): Bogon-Filter, RPKI-Policy, definierte Export-Regeln, keine ungewollte Transitgabe.
Transit/Upstream: Full-Table-Handling, strenge Export-Policy, Monitoring auf Path-Änderungen, klare LocalPref-Strategie.
Inter-AS/Core-Edges: besonders strenge Change-Prozesse, da Fehler sofort große Bereiche treffen können.

Je weniger Sie pro Session „manuell nachdenken“, desto geringer das Leak-Risiko. Gute Teams investieren in Templates, Validierungschecks und automatisierte Tests, statt in heldenhafte Debug-Sessions.

Monitoring und Alarmierung: Was Sie frühzeitig sehen wollen

Ein Leak wird selten durch „BGP down“ angekündigt. Viel häufiger sind es subtile Veränderungen: Prefix-Count-Spikes, unerwartete Communities, neue Origin-AS, drastische Path-Änderungen. Sinnvolle Alarme sind:

Prefix-Count-Anomalien: relative und absolute Schwellen pro Session.
RPKI Invalid-Anteil: plötzlicher Anstieg ist ein starker Warnhinweis.
Update-Rate-Spikes: besonders in kurzen Zeitfenstern.
Neue Origin-AS für kritische Prefixes: „wer originert das plötzlich?“ ist oft der schnellste Hijack-/Leak-Indikator.
Export-Diff nach Changes: was hat sich in der Export-Policy real verändert?

Ein gutes Monitoring setzt außerdem auf Korrelation: Prefix-Spike plus Traffic-Verlagerung plus erhöhte CPU/FIB-Latenz ist deutlich aussagekräftiger als ein einzelner Trigger.

Change- und Incident-Playbooks: Wie Sie Leaks schnell eindämmen

Best Practices scheitern häufig nicht an fehlenden Regeln, sondern an fehlenden Abläufen. Für BGP am Edge sollten Teams mindestens zwei Playbooks sauber etablieren: ein Change-Playbook und ein Leak-Response-Playbook.

Change-Playbook für BGP-Policies

Pre-Checks: Prefix-Counts, Update-Rate, RPKI-Status, Export-Samples (repräsentative Routen).
Staged Rollout: zuerst weniger kritische Sessions, dann schrittweise Erweiterung.
Post-Checks: gleiche Metriken wie Pre-Checks plus gezielte Reachability- und Traffic-Checks.
Rollback-Ready: Policy-Versionierung und schneller Rückbau ohne „Handarbeit unter Stress“.

Leak-Response-Playbook

Sofortmaßnahme: Export stoppen oder Session dämpfen (abhängig davon, ob Leak inbound oder outbound ist).
Scope bestimmen: welche Sessions, welche Prefixes, welche Regionen?
Stabilisierung: Max-Prefix, Filter-Override, Community-Block, ggf. temporäres De-Preferencing.
Nachweis und RCA-Basis: Snapshots der Policy, Routen, Counters und Zeitstempel sichern.

Wichtig: „Schnell stoppen“ und „sauber verstehen“ sind zwei Phasen. Ein Leak-Playbook sollte beides abbilden, damit Mitigation nicht die RCA verhindert.

Outbound-Referenzen für Standards und weiterführende Best Practices

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.