OSPF vs. IS-IS fürs Backbone: Betrieb, Konvergenz und Risiken

Das Hauptkeyword „OSPF vs. IS-IS fürs Backbone“ taucht in ISP- und Telco-Teams immer dann auf, wenn es um mehr geht als Protokoll-Religion: Betriebssicherheit, Konvergenzverhalten und das Risiko großer Routing-Incidents hängen im Backbone stark davon ab, wie sauber das IGP designt und operationalisiert ist. OSPF und IS-IS sind beide Link-State-Protokolle, beide können in großen Netzen stabil…

BGP am Edge: Filtering, Route-Leak-Impact und Best Practices

Das Hauptkeyword „BGP am Edge“ steht in Provider- und Enterprise-Backbones für den kritischsten Übergabepunkt zwischen Verantwortungssphären: hier treffen Kunden, Peers, Upstreams, Internet Exchanges und interne Domänen aufeinander. Genau an dieser Stelle entstehen die folgenschwersten Routing-Incidents – nicht weil BGP „unsicher“ wäre, sondern weil BGP bewusst flexibel ist und deshalb konsequenten Schutz braucht. Ohne sauberes Filtering,…

Peering-Incident: Sicherstellen, ob das Problem im Interconnect oder Transit liegt

Ein „Peering-Incident“ wirkt im NOC oft wie ein einziges Symptom („Kunde erreicht Ziel X nicht“), kann aber zwei sehr unterschiedliche Ursachen haben: ein Problem im Interconnect (also am direkten Peering-Link, am IX-Port, am Cross-Connect, am L2/L3-Edge) oder ein Problem im Transit (Upstream-Path, Provider-Core, Remote-Policy, externe Störung außerhalb des direkten Peering-Pfads). Genau hier entscheidet sich, ob…

BGP-Session-Flap: L1/L2-Issue vs. Policy-Issue unterscheiden

Ein „BGP-Session-Flap“ ist für NOC- und Backbone-Teams ein Alarmsignal mit hoher Priorität: Wenn eine BGP-Nachbarschaft wiederholt hoch- und runtergeht, verlieren Sie nicht nur Routen, sondern oft auch Stabilität im gesamten Edge- oder Interconnect-Segment. Das Hauptkeyword „BGP-Session-Flap“ beschreibt dabei nicht die Ursache, sondern das Symptom. In der Praxis stehen hinter Flaps meist zwei Klassen von Ursachen:…

Route-Leak-Response-Plan: Von Detection zu Mitigation in Minuten

Ein Route Leak gehört zu den wenigen Routing-Ereignissen, bei denen Minuten über großflächige Kundenauswirkungen entscheiden. Das Hauptkeyword „Route-Leak-Response-Plan“ beschreibt daher keinen theoretischen Prozess, sondern ein operatives Versprechen: Detection, Triage und Mitigation müssen so standardisiert sein, dass ein On-Call-Team auch unter Stress reproduzierbar handelt. Ein Leak kann sehr unterschiedlich aussehen – von einem Kunden, der versehentlich…

Provider Layer 2: Metro Ethernet, QinQ und operative Fallstricke

Das Hauptkeyword „Provider Layer 2“ steht in der Praxis für die Transportebene vieler Carrier-Dienste: Metro Ethernet, VLAN-basierte Übergaben und skalierbare L2-VPN-Konstrukte, die Kundenstandorte, Rechenzentren und Aggregationsnetze verbinden. Auf dem Papier wirkt Layer 2 simpel – Frames rein, Frames raus. Im Betrieb zeigt sich jedoch schnell, dass Metro Ethernet und insbesondere QinQ (802.1ad) eine eigene Welt…

RPKI: Praktische Implementierung zur Hijack-Reduktion

Das Hauptkeyword „RPKI: Praktische Implementierung zur Hijack-Reduktion“ steht für einen Ansatz, der BGP-Sicherheit nicht über Hoffnung, sondern über überprüfbare Kryptografie verbessert. In der Praxis bedeutet das: Router treffen Routing-Entscheidungen nicht nur auf Basis von AS-Pfaden und lokalen Policies, sondern bewerten zusätzlich, ob der angekündigte Origin-AS für ein Präfix autorisiert ist. Genau diese zusätzliche Prüfschicht reduziert…

QinQ-Troubleshooting: Wenn Kunden-VLANs im Aggregation-Netz „verloren gehen“

Das Hauptkeyword „QinQ-Troubleshooting“ beschreibt eine sehr konkrete, immer wiederkehrende Betriebsrealität in Provider- und Metro-Ethernet-Netzen: Kunden-VLANs (C-Tags) „gehen verloren“, sobald sie das Aggregation-Netz erreichen. Der Link ist dabei häufig stabil, OAM wirkt teilweise unauffällig, und dennoch kommen einzelne VLANs nicht am Ziel an oder funktionieren nur sporadisch. Typisch sind Symptome wie „einige VLANs gehen, andere nicht“,…

Anycast-DNS im ISP: Design, Monitoring und Failure Modes

Das Hauptkeyword „Anycast-DNS im ISP“ beschreibt eine der wirkungsvollsten Methoden, um DNS-Dienste in Provider-Netzen gleichzeitig schneller, robuster und besser skalierbar zu machen. Statt einen rekursiven Resolver oder autoritativen DNS-Cluster an einem zentralen Standort zu betreiben, announct der ISP dieselbe Service-IP aus mehreren PoPs. Nutzer landen dadurch automatisch beim „nächsten“ Standort – so, wie es BGP-Entscheidungen…

MAC-Learning bei Scale: MAC-Table-Exhaustion im Metro verhindern

Das Hauptkeyword „MAC-Learning bei Scale“ beschreibt im Metro- und Provider-Ethernet-Betrieb eine zentrale Skalierungsgrenze von Layer 2: Switches und Provider-Edges müssen MAC-Adressen lernen, speichern und im richtigen Zeitfenster wieder aus der Forwarding Database (FDB) entfernen. Solange wenige Tausend Endgeräte im Spiel sind, bleibt das unsichtbar. In großen Aggregationsnetzen mit vielen Kunden, E-LAN-Diensten, QinQ-Bundling oder flächigem Bridging…