Site icon bintorosoft.com

Upgrade-Topologie: Maintenance Domains für hitless Upgrades

Eine saubere Upgrade-Topologie ist der unsichtbare Unterschied zwischen „wir machen Wartung“ und „wir liefern hitless Upgrades“. In Telco- und Provider-Netzen scheitern Upgrades selten an der eigentlichen Software, sondern an der Topologie: zu große Failure Domains, unklare Abhängigkeiten, fehlende N-1-Reserven, nicht getestete Drain-Prozesse oder Maintenance-Fenster, die zwar geplant, aber topologisch nicht abgesichert sind. „Hitless“ heißt dabei nicht zwingend „ohne jegliche Paketverluste“, sondern in der Praxis: keine kundenrelevante Unterbrechung, keine SLO-Verletzung und keine unkontrollierte Kaskade aus Flaps, Rehashing und Congestion. Der Schlüssel ist, Wartung wie eine Topologiefunktion zu behandeln: Maintenance Domains definieren, die klein genug sind, um isoliert bearbeitet zu werden, und groß genug, um operational Sinn zu ergeben. Dazu gehören klare Rollen (Access, Metro, Core, Edge, Service Edge), definierte Drain-/Failoverpfade, konsistente Routing- und Policy-Mechanismen (ECMP, FRR/TI-LFA, BFD, BGP-Policies), sowie Observability, die Vorher/Nachher messbar macht. Dieser Artikel zeigt, wie Sie Maintenance Domains für hitless Upgrades planen: von Domain-Schnitten über Upgrade-Sequenzen und Guardrails bis zu Kapazitäts- und SLO-Checks, damit Upgrades zu einem wiederholbaren, risikoarmen Prozess werden – statt zum nächtlichen Abenteuer.

Was „hitless“ im Provider-Alltag realistisch bedeutet

„Hitless Upgrade“ wird oft als Marketingbegriff verstanden. In der Praxis ist ein realistisches Ziel: keine spürbare Serviceunterbrechung und keine nachhaltige Qualitätsverschlechterung. Kurze Mikroeffekte (z. B. einzelner Flow rehash, wenige Pakete im Millisekundenbereich) können technisch auftreten, dürfen aber nicht zu Session-Abbrüchen, VoIP-Aussetzern oder großflächigen Retransmits führen. Dafür braucht es eine Kombination aus Topologie, Protokollverhalten und Upgrade-Methodik.

Leitprinzip: Wartung ist ein geplanter Ausfall

Wenn Ihr Netz Wartung nicht wie einen Ausfall behandeln kann, wird es im echten Ausfall erst recht schwierig. Maintenance Domains sind die Struktur, um geplante Ausfälle sicher zu absorbieren.

Maintenance Domains: Definition, Zweck und Granularität

Eine Maintenance Domain ist eine Menge an Geräten/Links/Services, die gemeinsam und isoliert gewartet werden kann, ohne andere Domains unkontrolliert zu beeinflussen. In Telco-Topologien sollten Domains die natürliche Hierarchie spiegeln: PoP, Metro-Cluster, Ringsegment, Edge-Cluster, RR-Cluster, Service-Cluster (BNG/CGNAT). Die Domain-Grenze ist dort sinnvoll, wo Failure Domains ohnehin existieren und wo Sie Pfade kontrolliert umsteuern können.

Designregel: Domain-Grenzen müssen messbar sein

Wenn Sie nicht eindeutig sagen können, welche SLOs/SLIs eine Domain abdeckt, ist sie als Maintenance Domain zu unscharf. Domains brauchen klare Scopes (Region/PoP/Rolle/Serviceklasse).

Topologische Voraussetzungen für hitless Upgrades

Hitless Upgrades sind nur möglich, wenn die Topologie Pfadvielfalt und Reserve bietet. Das gilt für Links (ECMP/LAG), für Knoten (Dual-Core/Dual-Edge) und für Service-Plattformen (Cluster, N+1). Außerdem müssen Failure Domains so geschnitten sein, dass Wartung nicht gleichzeitig mehrere redundante Komponenten trifft.

Anti-Pattern: Redundanz, die in Wartung kollabiert

Viele Netze sind „redundant“, solange niemand daran arbeitet. Sobald ein Link oder Knoten drainen soll, zeigt sich, dass N-1 Kapazität fehlt oder dass Ersatzpfade andere MTU/QoS-Profile haben. Hitless Upgrade beginnt mit konsistenten Ersatzpfaden.

Domain-Schnitt nach Rollen: Access, Metro, Core, Edge

Eine praktische Vorgehensweise ist, Maintenance Domains entlang der Rollen zu schneiden. So werden Upgrades planbar, weil jede Rolle typische Risiken und typische Drain-Mechanismen hat. Der Core wird häufig konservativ und in kleinen Schritten aktualisiert, während Metro/Edge stärker an Kapazität und Traffic-Mix gebunden ist und Service-Edges zusätzliche Session- und State-Aspekte haben.

Designregel: Je höher die Blast-Radius-Gefahr, desto kleiner die Domain

Core und zentrale Edge-Standorte haben hohe Reichweite. Dort sollten Maintenance Domains klein und Sequenzen konservativ sein.

Upgrade-Sequenzen: Reihenfolge ist ein Topologie-Feature

Selbst bei guter Domain-Struktur kann eine falsche Reihenfolge Upgrades riskant machen. Eine bewährte Logik ist: zuerst Komponenten aktualisieren, die keine Pfade tragen (z. B. Standby/Backup), dann aktive Komponenten drainen und aktualisieren, und erst zum Schluss zentrale Gateways oder Hubs. Sequenzen sollten außerdem Control-Plane-Abhängigkeiten berücksichtigen: RR-Cluster, Telemetry-Collector, AAA/PKI.

Upgrade-Plan = Failure-Plan

Jede Sequenz sollte eine „wenn es schiefgeht“-Abzweigung haben: Rollback, Freeze, oder Ausweichen auf eine andere Domain. Ohne diese Abzweigung wird Wartung zum Incident.

Drain-Mechanismen: Wie Traffic kontrolliert aus einer Domain herausgezogen wird

Hitless Upgrades hängen stark davon ab, wie sauber Sie Traffic drainen können. Drain bedeutet: Verkehr wird vor dem Eingriff umgelenkt, sodass der zu wartende Knoten/Link keine kritische Last mehr trägt. In Telco-Netzen sind dafür meist mehrere Mechanismen kombiniert: IGP-Metriken, BGP-Policy, ECMP-Weighting, LAG-Member-Drain, sowie SR-Policies. Wichtig ist, dass Drain nicht zu unkontrollierten Rehash-Hotspots führt.

Designregel: Drain braucht Messbarkeit

Vor dem Upgrade müssen Sie sehen, dass der Drain wirkt: Portauslastung sinkt, Queue-Drops gehen zurück, SLOs bleiben stabil. Ohne Telemetry ist Drain eine Vermutung.

Maintenance Domains für Service-Edges: BNG, CGNAT, Firewalls, DDoS

Service-Edges sind besonders upgrade-sensibel, weil sie stateful sind: Sessions, NAT-State, Inspection-State. Eine reine Routing-Umleitung kann hier Verbindungen brechen, wenn Symmetrie nicht stimmt oder State nicht migriert wird. Deshalb brauchen Service-Edges eigene Maintenance Domains mit klaren Verfahren: Session-Drains, N+1 Cluster, ggf. State-Synchronisation, und testbare Failover-Mechanismen.

Anti-Pattern: Service-Edge wie einen Router behandeln

Stateful Knoten brauchen andere Upgrade-Playbooks. Wer sie wie stateless Transit upgradet, riskiert Sessionabbrüche und schwer reproduzierbare Fehlerbilder.

Control-Plane und Abhängigkeiten: RR, Telemetry, PKI/AAA als Upgrade-Risiko

Hitless Upgrade ist nicht nur Datenebene. Control-Plane-Abhängigkeiten können Wartung kippen: Route Reflectors, Controller, Telemetry-Collectors, Zeitquellen, AAA/PKI. Wenn diese Systeme nicht als eigene Maintenance Domains geplant sind, fällt im Upgrade plötzlich Observability aus oder Authentifizierung bricht – und der Betrieb arbeitet blind.

Designregel: Ohne Observability keine hitless Upgrades

Wenn Ihre Telemetry während Wartungen ausfällt, fehlt die wichtigste Sicherheitsleine. Upgrades sollten die Observability-Domain nie gleichzeitig mit der Service-Domain gefährden.

SLO-Guardrails: Wann eine Domain nicht upgradefähig ist

Eine der effektivsten Methoden für risikoarme Wartung ist ein „Go/No-Go“-Gate pro Domain: Upgrades werden nur gestartet, wenn SLOs stabil sind, Headroom vorhanden ist und keine akuten Anomalien laufen. Das verhindert, dass Wartung in eine bereits fragile Situation hinein ausgeführt wird.

Wartung ist ein Investment in Stabilität

Ein „No-Go“ ist kein Scheitern, sondern Risikomanagement. Es ist besser, einen Upgrade-Slot zu verschieben, als einen Incident zu erzeugen, der das Error Budget aufbraucht.

MTU, QoS und Ersatzpfade: Die häufigsten hitless-Killer

Viele „nicht hitless“ Effekte entstehen nicht durch das Upgrade selbst, sondern durch Unterschiede zwischen Normal- und Ersatzpfaden. Wenn Failoverpfade eine kleinere MTU haben oder andere QoS-Profile, führt Drain zu Blackholes, Retransmits oder Voice-Aussetzern. Deshalb müssen Maintenance Domains mit konsistenten Profilen gebaut werden.

Designregel: Ersatzpfad ist ein gleichwertiger Pfad

Wenn der Ersatzpfad technisch schlechter ist, wird Wartung zwangsläufig sichtbar. Konsistenz von MTU/QoS ist Voraussetzung für hitless.

Automation und Governance: Maintenance Domains skalieren nur mit Standards

In großen Telco-Netzen ist manuelles Upgrade pro Gerät nicht nachhaltig. Maintenance Domains ermöglichen Automation: Domain auswählen, Checks ausführen, Drain starten, Upgrade rollen, Verifikation, Failback. Dafür braucht es standardisierte Templates, klare Ownership und auditierbare Prozesse.

Ein wichtiger OPEX-Hebel: Wiederholbarkeit

Wenn jede Domain gleich upgradebar ist, sinkt Risiko und Aufwand. Wenn jede Domain anders ist, werden Upgrades zum Spezialprojekt.

Typische Fallstricke und wie man sie vermeidet

Praktische Leitlinien: Maintenance Domains für hitless Upgrades

Exit mobile version