Interconnect/Peering Topologie: IXPs, Transit, PNIs und Policy-Design

Red Snapper

3 months ago

Eine saubere Interconnect/Peering Topologie ist für Telcos, ISPs und Content-nahe Betreiber ein zentraler Hebel für Kosten, Performance und Resilienz. Ob Endkunden „schnelles Internet“ erleben, ob Business-Kunden stabile Cloud-Anbindungen bekommen und ob Video- oder Gaming-Traffic ohne Jitter läuft, entscheidet sich oft nicht im Backbone, sondern an der Netzaußengrenze: bei IXPs, Transit-Providern und Private Network Interconnects (PNIs). Genau hier treffen technische Architektur, kommerzielle Modelle und Security-Anforderungen aufeinander. Wer Peering als „ein paar BGP-Sessions“ betrachtet, baut schnell ein Netz, das teuer ist (zu viel Transit), instabil wird (schlechte Failure Domains, zu wenig Redundanz) oder schwer zu betreiben ist (Policy-Wildwuchs, Route-Leaks, unklare Traffic-Steuerung). Ein professionelles Design behandelt Interconnect als wiederholbaren Blueprint: Topologie pro Region/PoP, klar definierte Edge-Rollen, standardisierte BGP-Policies, abgestimmtes Traffic Engineering, DDoS- und Security-Controls sowie Telemetry, die die Wirkung jeder Entscheidung sichtbar macht. Dieser Artikel zeigt praxisnah, wie Sie IXPs, Transit und PNIs topologisch sinnvoll kombinieren und wie Policy-Design die technische Topologie ergänzt, damit Wachstum nicht zur Komplexitäts-Explosion führt.

Grundbegriffe: IXP, Transit, PNI und warum die Mischung zählt

Interconnect ist nicht gleich Interconnect. In Provider-Netzen unterscheiden sich IXP-Peering, Transit und PNIs in Kostenmodell, Reichweite, Kontrollgrad und Betriebsaufwand. Die beste Architektur ist selten „nur Peering“ oder „nur Transit“, sondern eine bewusste Mischung, abgestimmt auf Traffic-Mix, Regionen und SLA-Anforderungen.

IXP (Internet Exchange Point): Öffentliche Austauschplattform, an der mehrere Netze über eine gemeinsame Switching-Fabric peeren. Vorteil: viele Peers mit relativ geringem physischem Aufwand, oft günstiger Traffic-Austausch.
Transit: Upstream-Anbieter liefert Internet-Reachability (typisch: Default/Full Table). Vorteil: vollständige Reichweite, Nachteil: Kosten pro Traffic und weniger direkte Kontrolle über Pfadqualität.
PNI (Private Network Interconnect): Direkte private Verbindung zwischen zwei Netzen (Cross-Connect oder private Wellenlänge). Vorteil: hohe Kontrolle, hohe Kapazitäten, geringe Latenz, stabile Betriebsmodelle.
Policy-Design: BGP-Regeln, die bestimmen, welcher Traffic über welchen Interconnect geht, und wie das Netz bei Fehlern reagiert.

Ein Leitgedanke: Interconnect ist Traffic Engineering auf wirtschaftlicher Ebene

Technisch gesehen ist jede Interconnect-Entscheidung eine Pfadentscheidung. Wirtschaftlich ist sie eine Kostenentscheidung. Ein sauberes Design bringt beides zusammen: bevorzugte Pfade für Performance, fallbackfähige Pfade für Resilienz und kontrollierte Pfade für Kosten.

Topologische Ziele: Latenz, Resilienz, Kosten und Operabilität

Bevor man konkrete Peering-Ports bestellt oder PNIs verhandelt, sollte man die Architekturziele klar definieren. In der Praxis lassen sich Interconnect-Topologien auf vier Hauptziele zurückführen, die miteinander in Konflikt geraten können.

Performance: kurze Wege, niedrige Latenz, geringer Jitter, stabile Pfade zu großen Content- und Cloud-Anbietern.
Resilienz: N-1/N-2-Fähigkeit, keine zentralen Single Points, klare Failure Domains pro Region/PoP.
Kosten: Transit minimieren, Peering effizient nutzen, PNIs dort, wo sie sich wirklich rechnen.
Betrieb: standardisierte Policies, klare Rollen, einfache Troubleshooting-Pfade, auditierbare Changes.

Die häufigste Ursache für „schlechte Peering-Erfahrung“

Viele Probleme entstehen nicht durch „zu wenig Peering“, sondern durch fehlende Struktur: Ports wachsen historisch, Policies werden pro Peer individuell, und im Störfall weiß niemand, warum Traffic plötzlich über Transit läuft. Ein Blueprint-Ansatz verhindert diese Drift.

Edge-Rollenmodell: Wo Interconnect in der Netzarchitektur sitzt

In Carrier-Designs ist die Interconnect-Schicht typischerweise eine eigene Zone: Internet Edge, Peering Edge oder Border. Dort werden externe BGP-Sessions terminiert, DDoS-Mechanismen integriert, Policies angewendet und Traffic gezielt in den Core bzw. zu Service-Edges geleitet. Wichtig ist, diese Funktionen nicht unkontrolliert in den Transit-Core zu ziehen.

Peering Edge Router: Terminiert eBGP zu IXPs/PNIs, setzt Import/Export-Policies, filtert und limitiert.
Transit Edge Router: Terminiert Transit-Provider, häufig mit eigenen Policies und Schutzmechanismen.
Core/Backbone: Transport, möglichst service-agnostisch; sollte nicht „jeden Peer“ direkt sehen müssen.
DDoS/Scrubbing Integration: Kontrollierte Umleitung/Filterung an der Edge, nicht als Ad-hoc-Reaktion.

Best Practice: Edge ist Policy Point

Je klarer die Edge als Policy-Grenze definiert ist, desto einfacher werden Betrieb und Sicherheit. Der Core bleibt stabil, während Interconnect-Änderungen lokal an der Edge erfolgen können.

IXP-Topologie: Von „ein Port“ zu regionalen Peering-Fabrics

IXPs sind attraktiv, weil sie schnelle Reichweite zu vielen Netzen bieten. Topologisch sind jedoch mehrere Entscheidungen zu treffen: in welchen Städten/PoPs man präsent ist, ob man redundante Fabrics nutzt, wie man L2-Design und MTU handhabt, und wie man die Edge-Router an den IXP anbindet.

Standortwahl: Nähe zu Kundenschwerpunkten und Content-Hubs; regionale Abdeckung statt nur „ein zentraler IXP“.
Redundanz: Mindestens zwei Edge-Router pro IXP-Standort, idealerweise auf getrennten Racks/Feeds.
Fabric-Redundanz: Viele IXPs bieten mehrere Switch-Fabrics; nutzen Sie diese als echte Failure Domains.
Kapazitätsklassen: Ports so planen, dass N-1 nicht sofort in Überlast führt.

IXP-Skalierung: Route Server vs. Bilaterals

Route Server vereinfachen Peering (eine Session, viele Peers), verändern aber das Policy- und Troubleshooting-Modell. Bilaterals geben mehr Kontrolle, erzeugen aber mehr Sessions und OPEX. In der Praxis ist ein Hybrid üblich: Route Server für „Long Tail“-Peers, bilaterals/PNIs für große Traffic-Partner.

PNI-Topologie: Wann private Interconnects sinnvoll sind

PNIs sind besonders wertvoll, wenn zwischen zwei Netzen große Volumina oder strenge Performance-Anforderungen bestehen. Topologisch sind PNIs oft stabiler als IXP-Peering, weil sie weniger gemeinsame Infrastruktur teilen. Sie sind aber auch teurer und benötigen klare Redundanz- und Operations-Patterns.

Traffic-Schwelle: Hohe und stabile Volumina machen PNIs wirtschaftlich attraktiv.
Performance: Geringere Latenz, weniger Shared Congestion, besser planbare Pfade.
Resilienz: Zwei PNIs in unterschiedlichen PoPs/Facilities reduzieren Shared Risk erheblich.
Betrieb: Weniger Peering-Komplexität, aber höhere Verantwortung für Kapazitätsplanung und Change-Management.

PNIs als Failure-Domain-Werkzeug

Viele Betreiber nutzen PNIs nicht nur für Performance, sondern auch zur Risikoentkopplung: Ein überlasteter oder gestörter IXP-Fabric darf nicht den gesamten Traffic zu einem großen Content-Anbieter beeinträchtigen. PNIs sind dann eine „private Ausweichroute“.

Transit-Topologie: Dual-Transit, Regionalisierung und Kostenkontrolle

Transit bleibt unverzichtbar, weil er vollständige Internet-Reachability liefert und als Fallback dient, wenn Peering-Pfade ausfallen oder nicht existieren. Gute Transit-Topologien sind redundant, regionalisiert und so gebaut, dass sie nicht zur globalen Failure Domain werden.

Dual-Transit: Mindestens zwei unabhängige Transit-Provider, idealerweise in unterschiedlichen Facilities/PoPs.
Regionaler Transit: Transit-Edges pro Region reduzieren Backbone-Hairpinning und verbessern Performance.
Policy-Fallback: Transit als letzter Pfad, aber mit kontrollierter Präferenz, damit Peering bevorzugt wird.
Kapazitätsreserve: N-1-Planung, damit Ausfall eines Providers nicht sofort Congestion erzeugt.

Transit als Sicherheits- und Betriebsanker

Transit kann auch in Security-Szenarien wichtig sein: DDoS-Umleitungen, Blackholing-Communities oder spezielle Scrubbing-Pfade hängen häufig an Transit-Beziehungen. Das erfordert klare Policies und strikte Route Hygiene.

Policy-Design: Import/Export als Steuerungsinstrument der Topologie

Die physische Topologie ist nur die halbe Wahrheit. Die effektive Topologie entsteht durch BGP-Policies: Local Preference, Communities, AS-Path Prepending, MED (wo sinnvoll), Export-Filter und Route-Leak-Prevention. Ziel ist ein deterministisches, wiederholbares Verhalten: Peering bevorzugen, Transit als Fallback, und bei Störungen kontrolliert umschalten.

Local Preference: Internes Primärinstrument für Pfadpräferenz (PNI > IXP > Transit als typisches Muster).
Export-Policy: Nicht jeder Prefix gehört zu jedem Peer; nur notwendige Routen exportieren.
Communities: Standardisierte Steuerung für Blackholing, Prepends, Regional-Controls, Route-Scoping.
Prefix-Listen: Strikte Filter gegen Route Leaks; Default-deny ist im Provider-Edge sinnvoll.

Policy-as-Code: Der einzige skalierende Weg

Interconnect-Policies ändern sich häufig: neue Peers, neue Ports, neue DDoS-Mechanismen, neue Regionen. Wenn Policies nicht versioniert, reviewed und getestet werden, entsteht schleichend ein unübersichtliches Regelwerk. Ein Template-Ansatz mit wenigen Peer-Klassen ist in der Praxis der stärkste OPEX-Hebel.

Outbound vs. Inbound Traffic Engineering: Was Sie wirklich steuern können

Outbound (Egress) lässt sich intern relativ direkt steuern: Local Preference, Next-Hop-Policies und regionale Exit-Strategien wirken zuverlässig. Inbound (Ingress) ist schwieriger, weil die Gegenseite entscheidet. Dennoch gibt es bewährte Methoden: gezielte Announcements pro Region, AS-Path Prepending, Communities (wenn vom Partner unterstützt) und Anycast-Strategien.

Outbound TE: Primär über Local Preference und regionale Exit-Policies.
Inbound TE: Prepending, selective announcements, communities, ggf. Anycast für bestimmte Services.
Scope-Kontrolle: Regionale Announcements vermeiden unnötiges Hairpinning über weit entfernte PoPs.
Störfallverhalten: Inbound kann bei Ausfällen „kleben“; Monitoring und Partner-Policies berücksichtigen.

Ein praktischer Fehler: Global announcen, lokal liefern wollen

Wenn Sie Prefixe überall gleich announcen, werden manche Inbound-Pfade zufällig oder kostengetrieben gewählt. Für gute Nutzererfahrung in Multi-Region-Netzen ist kontrollierte Regionalisierung oft wichtiger als maximale Sichtbarkeit.

Resilienz und Failure Domains: Interconnect so bauen, dass Ausfälle nicht eskalieren

Interconnect-Ausfälle sind selten „alles down“, sondern häufig partiell: ein IXP-Fabric hat Congestion, ein Cross-Connect ist fehlerhaft, ein Peer flapt, ein Transit-Provider hat Routing-Anomalien. Ein robustes Design begrenzt die Failure Domain: regionale Edges, diversifizierte Fabrics, klare Port- und Router-Redundanz und definierte Failover-Playbooks.

Router-Redundanz: Zwei Edge-Router pro Standort, unterschiedliche Linecards/Feeds.
Fabric-/Facility-Diversität: Nicht alles an einem Switch, nicht alles in einem Raum.
Multi-Region Exits: Regionen können im Notfall über andere Regionen ausweichen, aber kontrolliert und kapazitiv abgesichert.
Failover-Tests: Geplante Tests für Port-Ausfall, Router-Ausfall, IXP-Problem, Transit-Ausfall.

Störfallkapazität: Der stille Erfolgsfaktor

Wenn Peering-Ports im Normalbetrieb „voll“ sind, wird jeder Ausfall zur Congestion-Krise. Ein Interconnect-Design braucht Headroom und klare Upgrade-Trigger, sonst helfen die besten Policies nicht.

Security im Interconnect: Route Hygiene, RPKI, Max-Prefix und DDoS-Patterns

Interconnect ist eine Angriffsfläche: Route Leaks, Hijacks, BGP-Fehlkonfigurationen und DDoS-Ereignisse treffen zuerst die Edge. Security muss deshalb topologisch und policyseitig integriert werden, ohne Betrieb zu blockieren.

Routenhygiene: Default-deny Import, nur erwartete Prefixe zulassen; strikte Export-Filter.
Max-Prefix: Schutz gegen Route-Explosionen und Leaks; klare Schwellen und Runbooks.
RPKI-Validierung: Wo möglich, Routenvalidierung zur Reduktion von Hijack-Risiken.
DDoS-Integration: Blackholing-Communities, Scrubbing-Redirects, klare Trigger und Telemetry.

Security Domains an der Edge

Peering/Transit gehört in eine eigene Security Domain: getrennte Managementpfade, kontrollierte Tooling-Zugriffe, strikte Control-Plane-Protection. So verhindern Sie, dass ein Problem an der Außenkante den Core oder Managementnetze kompromittiert.

Monitoring und Telemetry: Interconnect als messbare Servicefläche

Ohne Messdaten ist Interconnect-Engineering ein Ratespiel. Provider benötigen Telemetry, die nicht nur Up/Down sieht, sondern Quality: Latenz, Loss, Jitter, Congestion, Route-Churn und Policy-Wirkung. Entscheidend ist, diese Daten pro Peer/Port/Region zu erfassen und mit Changes zu korrelieren.

Port-Telemetry: Auslastung, Drops, Queue-Stats, Microbursts pro Interconnect-Port.
BGP-Telemetry: Session-Stabilität, Update-Raten, Prefix-Counts, Path-Changes, Convergence-Zeiten.
Quality-Metriken: Latenz/Loss zu wichtigen Content- und Cloud-Zielen, regional aufgeschlüsselt.
Policy-Observability: Nachweis, dass Präferenzen wie geplant wirken (PNI bevorzugt, Transit Fallback).

Evidence-by-Design: Interconnect-Entscheidungen belegbar machen

Wenn Sie neue IXPs oder PNIs aktivieren, sollten Sie „Vorher/Nachher“-Metriken haben: Transit-Reduktion, Latenzverbesserung, Congestion-Reduktion, Störfallverhalten. Das macht Investitionsentscheidungen nachvollziehbar und senkt OPEX, weil Ursachen schneller gefunden werden.

Blueprint-Patterns: Wiederholbare Interconnect-Architekturen

Die meisten Provider profitieren von wenigen, wiederholbaren Patterns. Diese Patterns definieren, wie ein PoP interconnectet ist, welche Peers über IXP vs. PNI gehen, wie Transit angebunden ist und wie Policies aussehen. Dadurch werden Rollouts schneller und sicherer.

Single-Region IXP Pattern: Zwei Edge-Router, zwei Fabrics, Route Server + Bilaterals, Transit als Fallback.
Dual-Region Peering Pattern: Zwei Städte/PoPs, regionalisierte Prefix-Announcements, lokale Exits, kontrolliertes Cross-Region Failover.
PNI-Heavy Content Pattern: PNIs zu Top-Content/Cloud, IXP für Long Tail, Transit minimal aber redundant.
Wholesale/Partner Pattern: Strikte Export-Policies, klare Communities, separate Domains für Partner-Interconnect.

Ein einfaches Präferenzmodell als Ausgangspunkt

Pref(PNI)>Pref(IXP)>Pref(Transit)

Dieses Modell ist bewusst generisch. Es zeigt den typischen wirtschaftlichen und qualitativen Wunsch: private Pfade bevorzugen, öffentliche Peeringpfade als zweite Wahl, Transit als zuverlässiger Fallback. Die konkrete Umsetzung muss Kapazität, Regionen und Partnerbedingungen berücksichtigen.

Typische Fehlerbilder und wie man sie vermeidet

„Peering überall, aber trotzdem hoher Transit“: Ursache oft falsche Local Preference oder unvollständige Export-Policy – Lösung: Policy-Review und Messung der Pfadwahl.
IXP-Congestion trotz genug Bandbreite: Member-Hotspots, falsches Hashing oder fehlender Headroom – Lösung: Kapazitätsklassen, Queue-Telemetry, Upgrade-Trigger.
Route Leaks/Hijacks: fehlende Filter und Limits – Lösung: Default-deny, Max-Prefix, RPKI, strikte Templates.
Regionale Hairpins: Traffic verlässt Region unnötig – Lösung: regionale Exits, selective announcements, TE-Leitplanken.
Unklare Failover-Pfade: Ausfälle führen zu Chaos – Lösung: getestete Failover-Playbooks, N-1 Reserve, klare Failure Domains.
Policy-Wildwuchs: jeder Peer anders, schwer auditierbar – Lösung: Peer-Klassen, Policy-as-Code, Reviews, Wellen-Rollouts.

Praktische Leitlinien für Interconnect/Peering Topologie und Policy-Design

Edge als eigene Domain: Peering/Transit an dedizierten Edge-Rollen terminieren, Core stabil halten.
Regionale Präsenz planen: IXPs und Transit-Edges dort, wo Nutzer und Content sind; nicht nur „zentral“.
Redundanz erzwingen: Dual Router, diverse Fabrics, diverse Facilities, N-1 Kapazität.
PNIs gezielt einsetzen: Für große Traffic-Partner, kritische Performance und Risikoentkopplung.
Transit als Fallback bauen: Dual-Transit, regionalisiert, mit klaren Präferenzen und Headroom.
Policy standardisieren: Local Pref, Communities, Import/Export-Filter als Templates; Ausnahmen streng steuern.
Security integrieren: Route Hygiene, Max-Prefix, RPKI wo möglich, DDoS-Patterns und Control-Plane-Schutz.
Telemetry verpflichtend: Port/Queue/BGP/Quality-Metriken pro Region und Peer, inkl. Change-Korrelation.