Lessons Learned aus Telco Outages: Topologie-Fallen und Gegenmaßnahmen

Red Snapper

2 months ago

Lessons Learned aus Telco Outages sind für Carrier-Grade Netzdesigns besonders wertvoll, weil Störungen in Provider-Netzen selten auf „ein kaputtes Interface“ reduzierbar sind. In der Praxis sind Outages fast immer eine Kombination aus Topologie, Policies und Betrieb: scheinbar redundante Pfade teilen dieselbe Trasse (SRLG), ein Route Reflector wird zur versteckten Single Point of Failure, ein Ring schützt zwar, aber die Umschaltung erzeugt Congestion, oder ein DDoS-Mitigation-Mechanismus nimmt im Stress mehr Traffic vom Netz als der Angriff selbst. Wer Topologie-Fallen systematisch versteht, kann sie in Blueprints und Review-Gates übersetzen: klare Failure Domains, konservative Guardrails gegen Routing-Failures, definierte Wartungsdomänen für Rolling Upgrades, messbare Konvergenz- und Availability-Ziele sowie Observability-by-Design, die Degradation sichtbar macht, bevor Kunden sie melden. Der entscheidende Schritt ist, Outages nicht nur als „Incident“ zu betrachten, sondern als Designfeedback: Welche Annahme war falsch? Wo war die Redundanz nur logisch? Welche Komplexität wurde unterschätzt? Welche Metriken fehlten? Dieser Artikel fasst typische Ausfallmuster zusammen, die in Telco-Umgebungen immer wieder auftreten, und zeigt konkrete Gegenmaßnahmen auf Topologie- und Prozessebene – von L1-Diversität über IGP/BGP/SR-Guardrails bis hin zu DDoS-Integration, MTU/QoS-Fallen und Change-Risk-Management.

Warum Outages in Telco-Netzen oft „topologisch“ sind

Telco-Netze sind hochgradig vernetzte Systeme. Je größer die Netze, desto häufiger entstehen Fehler nicht durch den Defekt eines Bauteils, sondern durch unerwartete Wechselwirkungen: Konvergenz und Traffic Engineering beeinflussen sich, Service Chains reagieren empfindlich auf Pfadasymmetrien, und Steuer- und Datenebene können in Stresssituationen auseinanderlaufen. Topologie ist dabei der Rahmen, in dem alles passiert. Sie bestimmt, wie groß eine Störung werden kann, wie schnell das Netz reagiert, und ob der Betrieb kontrolliert handeln kann.

Failure Domains: Ohne klare Domänen wird ein lokales Problem schnell regional oder national.
Common-Mode Failures: Gemeinsame Risiken (Trasse, Facility, Strom) zerstören scheinbare Redundanz.
Komplexitätskosten: Mehr Redundanz kann ohne Standards und Observability zu mehr Fehlerbildern führen.
Degradation statt Outage: Viele Störungen sind „nur“ höhere Latenz/Loss – aber für Mobilfunk, VPNs oder Echtzeitdienste ist das kritisch.

Leitprinzip: Carrier-Grade ist planbare Degradation

Ein gutes Design akzeptiert, dass Fehler passieren, und sorgt dafür, dass sie kontrolliert und messbar bleiben – mit klaren Budgets für Konvergenz, Headroom und Servicequalität.

Topologie-Falle 1: „Redundanz“ ohne SRLG-Disziplin

Eine der häufigsten Ursachen für größere Outages ist physische Nicht-Diversität. Zwei Uplinks sehen im Diagramm redundant aus, laufen aber durch dieselbe Trasse, dasselbe Patchfeld oder dieselbe Facility. Bei Bauarbeiten, Wasserschäden oder Stromproblemen fallen beide „unabhängigen“ Pfade gleichzeitig aus. Das Problem ist nicht mangelnde Technik, sondern mangelnde L1-Sichtbarkeit.

Typisches Symptom: Dual-Homing fällt gleichzeitig aus; Failover existiert theoretisch, praktisch nicht.
Ursache: Gemeinsame SRLGs (Trasse, Fiber-Bundle, MMR, ODF, Stromzuführung).
Verstärker: Wartung, bei der beide Redundanzseiten betroffen sind, weil SRLGs unbekannt sind.

Gegenmaßnahme: SRLG als Pflichtattribut pro Circuit, plus Port-to-Port Dokumentation mit Circuit-IDs.
Gegenmaßnahme: Designregel „diverse entry points“ für kritische PoPs und Hubs.
Gegenmaßnahme: Maintenance Domains entlang SRLG-Grenzen schneiden, nicht entlang Teams/Kalender.

Topologie-Falle 2: Zu große L2-Domänen im Metro/Access

Große L2-Domänen sind im Provider-Umfeld besonders riskant: Loops, Flooding und unbekannte Broadcast/Multicast-Stürme haben einen großen Blast Radius. In Outages zeigt sich das als plötzliche Congestion, CPU-Spikes auf Aggregationsswitches oder unerklärliche Paketverluste, obwohl Links „up“ sind. Häufig ist die eigentliche Ursache: L2 wurde über zu viele Knoten gestreckt, weil es „einfacher“ erschien als frühes Routing.

Typisches Symptom: Broadcast-/Unknown-Unicast-Storm, hohe Drops, Instabilität in mehreren Sites.
Ursache: Bridging über große Bereiche, unzureichende Loop-Controls, fehlende Storm-Control-Policies.
Verstärker: Fehlkonfiguration eines Kundenports oder fehlerhafte CPE erzeugt großflächige Effekte.

Gegenmaßnahme: L3 als Skalierungsgrenze („L3-to-the-edge“), L2 nur dort, wo zwingend nötig.
Gegenmaßnahme: L2-Domänen bewusst begrenzen (VLAN-Scope, EVPN-Domänen, ringweise Isolation).
Gegenmaßnahme: Storm-Control und klare Allowed-VLAN-Sets als Standard-Gate.

Topologie-Falle 3: Ring-Protection schützt, aber erzeugt Congestion

Ringe sind bewährte Metro-Topologien, weil sie klare Schutzmechanismen bieten. Ein typischer Outage-Trigger ist jedoch: Der Ring schaltet korrekt um, aber der verbleibende Pfad hat nicht genug Headroom. Das Ergebnis ist keine Totalunterbrechung, sondern Degradation: höhere Latenz, Jitter und Drops, die für Echtzeitdienste wie Mobile Backhaul oder VoIP spürbar sind. „Protection funktioniert“ ist dann kein Erfolg, wenn die Servicequalität im N-1 kollabiert.

Typisches Symptom: Nach Linkausfall steigt Loss/Drops stark; Kunden sehen „langsam“ statt „down“.
Ursache: N-1 Headroom nicht eingeplant, QoS-Failover-Profil fehlt, Engpasspunkte nicht erkannt.
Verstärker: Gleichzeitige Wartung oder Peak-Last (Events, abendliche Peaks, DDoS-Resttraffic).

Gegenmaßnahme: N-1 Kapazitätsplanung als Pflichtlastfall, inklusive „Failover Surge“ (Churn/CPS).
Gegenmaßnahme: QoS-Design an Engpässen (Ringsegmente, Hub-Uplinks), Degraded-Mode-Profil definieren.
Gegenmaßnahme: Ring-Splitting oder Partial Mesh Erweiterung, wenn Wachstum Headroom aufzehrt.

Topologie-Falle 4: BGP Route Reflectors als versteckte Single Points

Route Reflectors (RR) sind in großen Netzen unverzichtbar, können aber bei falscher Platzierung oder fehlender Redundanz zu großflächigen Routingproblemen führen. Outages entstehen nicht nur durch RR-Ausfall, sondern auch durch Partitionen, Upgradefehler oder Ressourcenprobleme (CPU/Memory), die BGP-Updates verzögern. Besonders gefährlich ist ein RR-Design ohne klar getrennte Failure Domains.

Typisches Symptom: BGP-Sessions sind „up“, aber Bestpaths fehlen oder flappen; regionale Reachability bricht ein.
Ursache: Zu wenige RRs, RRs in derselben Facility, fehlende Hierarchie oder falsche Client-Zuordnung.
Verstärker: Route-Leaks, Prefix-Spikes, aggressive Graceful-Restart-Settings ohne Tests.

Gegenmaßnahme: Mindestens zwei RRs pro Client in getrennten Failure Domains (PoP/Region/Facility).
Gegenmaßnahme: RR-Hierarchie und Wartungsdomänen definieren; RR-Upgrades als Canary-Wellen.
Gegenmaßnahme: Guardrails: Max-Prefix, Update-Rate Monitoring, CoPP für BGP/IGP, klare Alarme für Churn.

Topologie-Falle 5: Route Leaks und Policy-Drift im Interconnect

Interconnect- und Internet-Edges sind policy-rich. Viele Outages entstehen durch unzureichende Filter und Drift: ein Export-Whitelist fehlt, Max-Prefix ist nicht gesetzt, Communities werden inkonsistent interpretiert, oder ein neuer Peer wird mit falschem Peer-Typ eingebunden (Peering wird Transit). Solche Fehler skalieren schnell global, weil BGP sehr effektiv ist – leider auch beim Verteilen falscher Informationen.

Typisches Symptom: Plötzliche globale Reachability-Probleme, ungewöhnliche AS-Pfadänderungen, Traffic-Sprünge.
Ursache: Fehlende Export-Whitelists, falsche Importfilter, fehlende Max-Prefix-Limits.
Verstärker: Änderungen ohne Pre-Checks, fehlende Simulation der Policy-Wirkung, RS/PNI-Policy nicht getrennt.

Gegenmaßnahme: Default-deny Export, nur autorisierte Aggregate; Peer-Typen strikt trennen (RS, PNI, Transit).
Gegenmaßnahme: Max-Prefix + Warnschwellen + Runbooks, inklusive klarer „freeze“-Logik bei Anomalien.
Gegenmaßnahme: Intent Validation: „Was würde ich exportieren?“ als Gate vor jedem Policy-Change.

Topologie-Falle 6: MTU-Blackholes durch Overlays, Labels und Failoverpfade

MTU-Probleme sind klassische „Geister-Outages“: kleine Pakete funktionieren, große nicht; bestimmte Dienste brechen, andere nicht. In Telco-Netzen tritt das besonders bei MPLS/SR, EVPN, QinQ und DCI/Encapsulation auf. Häufig ist der Failoverpfad „kleiner“ als der Normalpfad, weil eine Strecke oder ein Device eine niedrigere MTU hat. Im Normalbetrieb bleibt das unbemerkt – bis ein Failover eintritt.

Typisches Symptom: TCP-Probleme, Fragmentation/PMTUD-Failures, selektive Timeouts nach Umschaltung.
Ursache: End-to-End MTU nicht geplant, ICMP/PMTUD blockiert, Overhead unterschätzt.
Verstärker: DDoS-Scrubbing-Pfade, DCI-Failover, neue Service Chains mit zusätzlichem Header-Overhead.

Gegenmaßnahme: Mindest-MTU pro Linkklasse definieren (Core, Metro, DCI, Edge) inkl. Overhead.
Gegenmaßnahme: PMTUD-freundliche Policies, MSS-Strategien an sinnvollen Kanten (nicht blind überall).
Gegenmaßnahme: MTU-Tests im Normal- und Schutzpfad als Standard-Pre-Change-Check.

Topologie-Falle 7: ECMP/LAG-Imbalance und „Elephant Flows“

Mehr Pfade erhöhen Resilienz und Auslastung, aber nur, wenn Load Sharing funktioniert. In Outages sieht man oft: ein Link ist überlastet, obwohl parallele Links frei sind. Ursache ist häufig Hashing-Imbalance oder wenige große Flows, die auf einen Member fallen. Das wird besonders kritisch, wenn nach einem Ausfall weniger Members verfügbar sind und Rehashing zusätzliche Lastspitzen erzeugt.

Typisches Symptom: Hotspots, Queue-Drops auf einem Member, Degradation trotz „genug Kapazität“.
Ursache: Hashing auf zu wenigen Feldern, asymmetrische Flow-Muster, inkonsistente Hashing-Defaults zwischen Vendoren.
Verstärker: Failover, bei dem sich Hashing neu verteilt; fehlende per-member Telemetry.

Gegenmaßnahme: Hashing-Contract definieren (welche Headerfelder), konsistent über Plattformen.
Gegenmaßnahme: Imbalance-KPIs und per-member Monitoring verpflichtend (nicht nur „Port utilization“).
Gegenmaßnahme: Traffic Engineering oder Policy-Steering für kritische Elephants (wo sinnvoll), plus QoS/Policing.

Topologie-Falle 8: DDoS-Integration ohne sichere Guardrails

DDoS ist topologisch. Scrubbing Centers, Anycast, RTBH/FlowSpec und Traffic Steering können ein Netz schützen – oder es bei Fehlbedienung selbst lahmlegen. Ein häufiges Outage-Muster ist „Mitigation Regression“: falscher Scope, falsche Autorisierung, fehlende Ablaufzeit, oder Steering über Engpasspfade, die den Rest des Netzes degradieren.

Typisches Symptom: Legitimer Traffic wird gedroppt, Regionen sind plötzlich „weg“, obwohl Angriff lokal ist.
Ursache: Mitigation ohne Scope/Expiry, fehlende Containment-Strategie, DCI/Backhaul wird Hairpin.
Verstärker: Fehlende Tests der Mitigation-Pfade (MTU/QoS), keine klare Ownership zwischen NOC/SOC.

Gegenmaßnahme: Autorisierte Quellen + Scope Control + Expiry als Pflicht für RTBH/FlowSpec.
Gegenmaßnahme: Scrubbing regional verteilen oder Steering so gestalten, dass DCI nicht zum Engpass wird.
Gegenmaßnahme: Mitigation-Pfade als eigener Lastfall: QoS, MTU, Monitoring, Failover-Tests.

Topologie-Falle 9: Management- und Telemetry-Pfade sind nicht resilient

Ein Netz kann technisch weiterlaufen, aber operativ „blind“ werden. Outages eskalieren dann, weil Teams keine verlässlichen Daten mehr haben: Telemetry bricht unter Last zusammen, OOB-Zugänge sind nicht redundant, Jump-Zones hängen am selben PoP wie die Störung, oder Monitoring erzeugt selbst Last (z. B. zu aggressive Polling-Intervalle). Gerade bei Degradations ist Observability der Schlüssel zur schnellen Eingrenzung.

Typisches Symptom: In der Störung fehlen Metriken, Logs oder Zugänge; MTTR steigt stark.
Ursache: Telemetry/Logs „best effort“, keine Backpressure, Managementpfade nicht als eigene Domäne geplant.
Verstärker: DDoS, Congestion oder Control-Plane-Stress beeinträchtigen genau die Messpfade, die man braucht.

Gegenmaßnahme: Management-Topologie (OOB/In-Band) als eigener Blueprint mit Redundanz und Security Domains.
Gegenmaßnahme: Observability-by-Design: Pflichtmetriken, Sampling-Strategien, Telemetry-Limits.
Gegenmaßnahme: High-Signal Alerts und Service-KPIs, damit Degradation früh sichtbar wird.

Topologie-Falle 10: Change-Risk und Wartungsdomänen ignoriert

Viele große Outages entstehen nicht durch Hardwaredefekte, sondern durch Changes: Softwareupgrades, Policy-Änderungen, neue Links, neue SR-Policies. Häufig ist die Topologie nicht „change-friendly“: Wartung trifft beide Redundanzseiten, Rollback ist unklar, oder der Change wird in zu großer Welle ausgerollt. Ohne Canary-Logik und Stop/Go-Gates wird jeder Rollout zum Glücksspiel.

Typisches Symptom: Nach einem Change steigen Churn, Drops oder Session-Resets; Rollback ist hektisch.
Ursache: Keine Maintenance Domains, kein Degraded-Mode-Plan, fehlende Pre-/Post-Checks.
Verstärker: Parallelbetrieb (Brownfield) ohne klare zeitliche Grenzen, Ausnahmefälle ohne Ablaufdatum.

Gegenmaßnahme: Progressive Rollouts: Canary → Batch → Welle, entlang von Maintenance Domains.
Gegenmaßnahme: Stop/Go-Gates basierend auf SLOs (Loss/RTT), Drops, Prefix-Counts, Control-Plane-Health.
Gegenmaßnahme: Rollback als Designartefakt: getestet, reversibel, inklusive Traffic-Steering zurück.

Gegenmaßnahmen systematisieren: Aus Lessons Learned werden Blueprints und Gates

Der größte Nutzen aus Outages entsteht, wenn Gegenmaßnahmen nicht als einmaliger Patch umgesetzt werden, sondern in Standards überführt werden: Blueprints, Checklisten und automatisierte Validierungen. Dadurch sinkt die Wahrscheinlichkeit, denselben Fehler in einer anderen Region zu wiederholen.

Blueprints: Core Backbone, Metro Ring, Internet Edge, FTTH Access, Mobile Backhaul – mit festen Rollen, Parametern und Guardrails.
Review-Gates: SRLG-Disziplin, Failure Domains, N-1 Headroom, Max-Prefix/Export-Whitelist, MTU, QoS-Failover.
Intent Validation: Policy-Wirkung und Safety Checks vor Changes (Leaks, Limits, MTU-Minimum, CoPP).
Lab-Reproduktion: Kritische Failure Scenarios (Link/Node/Partition) vor großen Rollouts validieren.

Ein hilfreiches Denkmodell: Outage als verletzte Annahme

Outage≈AssumptionBroken+GuardrailMissing+VisibilityGap

Fast jede größere Störung lässt sich auf gebrochene Annahmen, fehlende Schutzplanken und unzureichende Sichtbarkeit zurückführen. Genau dort sollten Ihre Standards ansetzen.

Praktische Leitlinien: Lessons Learned in dauerhafte Resilienz übersetzen

L1 zuerst ernst nehmen: SRLG-Tracking, diverse Paths, Facility-Risiken und Port-to-Port Dokumentation als Pflicht.
Failure Domains sichtbar machen: PoP/Region/Ring/DCI/Maintenance Domains explizit dokumentieren und reviewen.
Guardrails erzwingen: Max-Prefix, Export-Whitelists, Default-deny Policies, CoPP als Standard – kein Optional.
N-1 als Normalfall planen: Headroom, QoS-Degraded-Mode und Failoverpfade als feste Lastfälle.
MTU end-to-end testen: Overhead berücksichtigen, PMTUD/ICMP richtig behandeln, Failoverpfade prüfen.
ECMP/LAG messbar machen: Per-member Telemetry, Imbalance-KPIs, Hashing-Contract über Vendoren.
DDoS sicher integrieren: Scrubbing/Steering mit Scope/Expiry/Authorization, Mitigation-Pfade wie Services testen.
Observability-by-Design: Pflichtmetriken (Loss/RTT/Drops/Churn), High-Signal Alerts, Telemetry-Limits und resiliente Managementpfade.
Change-Risk reduzieren: Canary-Rollouts, Stop/Go-Gates, getesteter Rollback, Evidence-by-Design archivieren.
Ausnahmen kontrollieren: Sonderfälle nur mit Review und Ablaufdatum, sonst wird Komplexität dauerhaft.