Site icon bintorosoft.com

Migration von Legacy Topologien: Brownfield Modernisierung ohne Downtime

Die Migration von Legacy Topologien ist im Telco- und Provider-Umfeld eine der anspruchsvollsten Disziplinen der Netzwerktechnik, weil sie in einer Brownfield-Realität stattfindet: Kunden hängen am Netz, Services dürfen nicht ausfallen, und gleichzeitig sollen Architektur, Automatisierung und Betrieb modernisiert werden. „Ohne Downtime“ bedeutet dabei nicht, dass niemals irgendwo ein Interface kurz neu verhandelt oder eine Session neu aufgebaut wird, sondern dass die Servicewirkung kontrolliert bleibt: keine ungeplanten Totalausfälle, keine großflächigen Reachability-Lücken und keine SLA-brechenden Wartungsfenster. In der Praxis scheitern Modernisierungen selten an der neuen Technologie, sondern an der Übergangsphase, in der alt und neu parallel existieren müssen. Genau hier braucht es ein methodisches Vorgehen: klare Zielarchitektur (Target), belastbare Bestandsaufnahme (As-Is), definierte Übergangstopologien (Transitional States), sichere Cutover-Mechanismen (Traffic Steering, Dual-Stack/Overlay, VRF-Transitions) und eine Betriebsstrategie (Canary, progressive Rollouts, Rollback). Dieser Artikel zeigt, wie Sie Legacy-Topologien modernisieren, ohne den Betrieb zu gefährden: Welche Migrationsmuster sich bewährt haben, wie man Failure Domains und Wartungsdomänen nutzt, wie man Routing und Services schrittweise umhängt und wie man mit Intent Validation und Lab-Reproduktion Risiken vor dem Change sichtbar macht.

Warum Brownfield-Migrationen schwieriger sind als Greenfield-Projekte

Greenfield-Designs können idealtypisch geplant werden: konsistente Adressierung, klare Rollen, einheitliche Plattformen, saubere Segmentierung. Brownfield-Migrationen dagegen starten mit Einschränkungen: historisch gewachsene Adressräume, gemischte Hardware, inkonsistente Policies, verteilte Dokumentation und häufig unklare Abhängigkeiten zwischen Services und Topologie. Außerdem ist der Zeitdruck real: Sicherheitsanforderungen, Kapazitätsengpässe oder Vendor-End-of-Life erzwingen Modernisierung, während die Kundenlast weiter wächst.

Leitprinzip: Migration ist ein Programm, nicht ein Projekt

Die Modernisierung ohne Downtime gelingt selten als „Big Bang“. Erfolgreich ist meist ein Programm aus kleinen, kontrollierten Schritten mit messbaren Zwischenzielen und wiederholbaren Migrationsmustern.

Die Zielarchitektur definieren: Was genau ist „modern“?

Eine Migration ohne Downtime braucht ein klares Zielbild, das mehr ist als ein Technologie-Buzzword. „Wir machen SRv6“ oder „wir gehen auf EVPN“ ist kein Zielbild. Ein gutes Zielbild beschreibt Rollen, Domänen und Betriebsprinzipien: Core/Metro/Access, Underlay/Overlay, Service Edges, Interconnect, Management und Observability. Außerdem definiert es Guardrails: Exportfilter, Max-Prefix, CoPP, DDoS-Steering, QoS-Modelle und Wartungsdomänen.

Designregel: Zielarchitektur muss migrationsfähig sein

Ein Zielbild ist nur dann nützlich, wenn es Übergangszustände erlaubt: Alt und Neu müssen koexistieren können, ohne dass Sie Sicherheits- oder Routing-Chaos erzeugen.

Bestandsaufnahme: As-Is verstehen, bevor man modernisiert

Die wichtigste Phase in einer Brownfield-Migration ist die Bestandsaufnahme. Dabei geht es nicht nur um Geräte und Links, sondern um Servicepfade und Policies. Sie brauchen ein Bild auf mehreren Layern: L1 (physisch/SRLG), L2 (Domänen, VLAN/QinQ, Ringe), L3 (IGP/BGP, Summaries, RR, TE) und Services (VRFs, L2VPN/L3VPN, Internet, DDoS, CGNAT/BNG). Ohne diese Transparenz ist „ohne Downtime“ nicht planbar.

Anti-Pattern: Migration auf Basis von veralteten Diagrammen

Wenn die Doku nicht vertrauenswürdig ist, müssen Sie sie durch messbare Realität ergänzen: Telemetry, Flow/IPFIX, BGP/IGP Health, Link-Status und SRLG-Analyse.

Übergangszustände planen: Transitional Architectures statt Big Bang

Downtime-freie Migrationen leben von klaren Übergangszuständen. Statt „alt raus, neu rein“ definieren Sie Zustände, in denen beide Welten parallel laufen, aber mit kontrolliertem Scope. Diese Zustände sind temporär, aber sie müssen stabil und auditierbar sein. Typische Übergangsmuster sind Parallel-Core, Overlay-Überbau, Dual-Stack-Parallelbetrieb, und Service-by-Service-Cutover.

Designregel: Jeder Übergangszustand braucht Guardrails

Transitional States erhöhen Komplexität. Deshalb müssen Schutzmechanismen (Exportfilter, Route Leak Schutz, Max-Prefix, CoPP) in diesen Phasen besonders strikt sein.

Traffic Steering als Schlüssel: Wie Cutovers ohne Serviceausfall gelingen

Cutover ohne Downtime bedeutet, Traffic kontrolliert umzulenken. Dafür gibt es mehrere Hebel: BGP-Policy (LocalPref, Communities, Prepends), Anycast-Health-Gates, SR-TE/TE-Policies, DNS (für bestimmte Dienste) und in Serviceketten auch Service-Chaining-Mechanismen. Wichtig ist, dass Steering reversibel ist und über klare Stop/Go-Gates gesteuert wird.

Anti-Pattern: Steering ohne Messplan

Jede Umlenkung braucht vorab definierte KPIs: Prefix-Counts, Portauslastung, Queue-Drops, p95/p99 Latenz, Session-Churn. Ohne Messplan wird Steering zur Wette.

Migrationsmuster für Routing: IGP, iBGP/RR und Interconnect schrittweise modernisieren

Routing ist häufig das Herz der Modernisierung. Ein robustes Muster ist, den Core transportstabil zu halten und Policies an klaren Kanten zu kapseln. Bei IGP-Migrationen (z. B. OSPF zu IS-IS oder neue Hierarchien) sind stabile Summaries und klare Domänengrenzen entscheidend. Für BGP ist die RR-Topologie ein klassischer Hebel: Hierarchische RRs können eingeführt werden, ohne dass alle Clients gleichzeitig migriert werden müssen, wenn Übergangspeerings sauber geplant sind.

Designregel: Core „boring“, Edge „policy-rich“

Je mehr Policy und Sonderlogik im Core liegt, desto größer der Blast Radius bei Migration. Kapseln Sie Interconnect- und Service-Policies an Edge-/Servicekanten.

Service-Migration: VRFs, L2VPN/L3VPN und Servicekanten ohne Kundenimpact

Service-Migrationen sind oft der kritische Teil, weil Kunden direkt betroffen sind. Bewährt ist ein Blueprint-Ansatz: Services werden nach einem Standardmodell beschrieben (VRF/RT/RD, QoS, CE-Topologie, Security) und dann schrittweise migriert. Für L3VPNs ist häufig ein PE-by-PE oder PoP-by-PoP Ansatz sinnvoll, bei dem die Kundenanbindung erst dann umgehängt wird, wenn das neue Service-Edge bereit ist und Back-to-Back getestet wurde.

Anti-Pattern: Kundenmigration ohne Canary-Logik

Starten Sie mit wenigen repräsentativen Kunden/Services (Canary), messen Sie SLO-Impact, und skalieren Sie erst dann in Wellen. Das minimiert unkontrollierten Blast Radius.

Parallelbetrieb beherrschbar halten: Komplexität bewusst begrenzen

Der Parallelbetrieb ist notwendig, aber gefährlich, weil er Komplexität erzeugt. Deshalb braucht er harte Grenzen: zeitliche Grenzen (wie lange darf der Übergang dauern?), topologische Grenzen (welche PoPs/Services sind in Übergang?), und technische Grenzen (welche Feature-Kombinationen sind erlaubt?). Ohne diese Begrenzungen entsteht „Legacy plus Neu plus Sonderfälle“.

Designregel: Übergangszustände müssen „deletable“ sein

Planen Sie von Anfang an, wie Sie Übergangskomponenten wieder entfernen. Wenn das nicht klar ist, wird der Übergang zum Dauerzustand.

Intent Validation und Lab-Reproduktion: Risiken vor dem Change sichtbar machen

Modernisierung ohne Downtime braucht Pre-Change-Sicherheit. Hier helfen zwei Instrumente besonders: Intent Validation (prüfbare Aussagen über Topologie und Policies) und Lab-Reproduktion (Containerlab/EVE-NG), um Failure Scenarios zu testen. Der Fokus liegt auf Invarianten: keine Route Leaks, Max-Prefix überall, VRF-Isolation, MTU-End-to-End, QoS-Failover-Profil, RR-Redundanz und DDoS-Guardrails.

Ein nützliches Erfolgsmodell

Go= (GuardrailsOK) ∧ (PathsStable) ∧ (SLO_Headroom)

Wenn Guardrails greifen, Pfade stabil sind und Headroom/SLO-Budgets im erwarteten Rahmen bleiben, ist das Risiko kontrollierbar.

Progressive Rollouts: Canary, Wellen und Rollback als Downtime-Vermeider

„Ohne Downtime“ wird in der Praxis durch progressive Rollouts erreicht. Sie ändern nicht alles gleichzeitig, sondern in kontrollierten Einheiten: Canary-Domänen, dann Batches, dann Wellen. Topologie bestimmt diese Grenzen: Maintenance Domains, SRLGs, PoP-Paare, Regionpaare. Rollback ist kein Notnagel, sondern Teil des Plans: Sie müssen jederzeit in einen sicheren Zustand zurückkehren können.

Anti-Pattern: Rolling Upgrade ohne Hysterese

Wenn Traffic-Steering oder Failback ohne Stabilitätsfenster erfolgt, drohen Ping-Pong und unerwartete Lastspitzen. Planen Sie Hold-downs und Beobachtungsfenster zwischen den Wellen.

Observability-by-Design: Migration nur mit Messbarkeit

Während der Modernisierung verändern sich Pfade. Deshalb ist Observability entscheidend: Sie brauchen Telemetry, die topologisch korreliert (Region/PoP/Rolle/Linkklasse) und die sowohl Control Plane (BGP/IGP/BFD/CPU) als auch Data Plane (Portauslastung, Queue-Drops, Loss, p95/p99 RTT) abbildet. Zusätzlich brauchen Sie Service-KPIs (BNG Sessions, CGNAT State, VPN Reachability, DNS Anycast Health), damit Sie nicht nur „Netz grün“, sondern „Service grün“ messen.

Designregel: Migration braucht ein „War Room Dashboard“

Vor der ersten Welle definieren Sie Dashboards und Alarme, die genau die erwarteten Risiken abdecken. So wird der Rollout steuerbar und weniger personenabhängig.

Typische Migrationspfade: Bewährte Modernisierungsstrategien

Typische Fallstricke und wie man sie vermeidet

Praktische Leitlinien: Brownfield Modernisierung ohne Downtime

Exit mobile version