Site icon bintorosoft.com

Asymmetrisches Routing am Edge: Auswirkungen auf Firewall/CGNAT

Asymmetrisches Routing am Edge ist eines der häufigsten „mysteriösen“ Problemfelder in Provider-Netzen – vor allem dann, wenn am Netzrand stateful Systeme stehen: Firewalls, CGNAT, Carrier-Grade-Load-Balancer, DPI oder Security-Gateways. Der Kern des Problems ist einfach: Hinweg und Rückweg eines Flows nehmen unterschiedliche Pfade. Für reines IP-Forwarding ist das oft unkritisch. Für stateful Systeme ist es dagegen potenziell katastrophal, weil Zustände (Sessions, NAT-Mappings, Policy-Entscheidungen) in der Regel auf dem Gerät liegen, das den ersten Teil des Flows gesehen hat. Kommt die Antwort dann über ein anderes Gerät oder eine andere Instanz zurück, fehlt der Zustand: Pakete werden gedroppt, Verbindungen resetten, Timeouts häufen sich, und das Fehlerbild wirkt zufällig („nur manche Kunden“, „nur manche Ziele“, „nur zu Peak-Zeiten“). Besonders am ISP-Edge ist asymmetrisches Routing kein Ausnahmefall, sondern eine natürliche Folge aus ECMP, Multi-Homing, BGP-Policy, Peering-Design und Lastverteilung. Dieser Artikel erklärt praxisnah, wie Asymmetrie entsteht, welche Auswirkungen sie auf Firewall und CGNAT hat, welche typischen Failure Modes auftreten, wie man das Problem mit Telemetrie beweist und welche Design- und Mitigation-Optionen in Provider-Umgebungen realistisch sind.

Was bedeutet asymmetrisches Routing am Edge?

Asymmetrisches Routing bedeutet, dass Pakete eines Kommunikationspaares (typischerweise Client → Server und Server → Client) nicht über denselben Pfad laufen. In einem ISP-Edge ist das häufig die Regel, weil der Hinweg (Outbound) durch Policies, ECMP und NAT-Gateways beeinflusst wird, während der Rückweg (Inbound) durch BGP-Entscheidungen des Internets, Anycast-Services, unterschiedliche Peerings oder unterschiedliche IGP-Kosten in das Netz zurückkommt.

Warum ist Asymmetrie für Firewalls und CGNAT so problematisch?

Firewalls und CGNAT sind stateful. Sie führen typischerweise eine Session-Tabelle (State Table) und treffen Entscheidungen basierend auf dem Kontext (z. B. „SYN gesehen“, „NAT-Mapping angelegt“, „Policy matchte auf Interface/Zone“, „Timeout läuft“). Kommt ein Paket ohne passenden Zustand, gibt es drei typische Reaktionen: Drop, RST/ICMP, oder Re-Learning/Neue Session (wenn erlaubt). In Provider-Edges ist „Re-Learning“ häufig nicht möglich oder nicht gewollt, weil es Security- und Abrechnungslogik verletzt.

Wie asymmetrisches Routing am ISP-Edge entsteht

Es gibt mehrere, oft gleichzeitig wirkende Ursachen. Entscheidend ist, dass Asymmetrie häufig nicht „ein Bug“ ist, sondern ein emergentes Verhalten aus Routing- und Load-Design.

Ursache 1: ECMP im Backbone und unterschiedliche Hash-Zuordnung

ECMP verteilt Flows über mehrere Pfade. Wenn der Hinweg über einen Pfad zur NAT/Firewall-Instanz A geht, kann der Rückweg über einen anderen Pfad in der Nähe der Instanz B ankommen, besonders wenn das Edge-Design mehrere gleichwertige Wege anbietet. Multipath-Themen werden in RFC 2991 und RFC 2992 diskutiert.

Ursache 2: Multi-Homing, Hot-Potato-Routing und BGP-Policy

Im Internet entscheidet nicht Ihr IGP, sondern die globale BGP-Topologie. Outbound wählen Sie häufig den „nächsten“ Exit (Hot-Potato). Inbound entscheiden andere ASNs anhand ihrer Policies. Selbst wenn Sie inbound Traffic „steuern“ (Communities, Prepends, MED), bleibt es probabilistisch. Das führt dazu, dass Rückverkehr oft an einem anderen Edge-PoP landet als der Hinweg.

Ursache 3: Anycast am Edge (DNS, CGNAT, Security-Services)

Anycast-IPs können Asymmetrie verstärken: Ein Client erreicht Anycast-Instanz X, aber Antworten laufen über Y, wenn das Netz den Rückpfad anders bewertet oder wenn ein Anycast-Prefix anders propagiert wird. Für Anycast-Betrieb ist RFC 4786 eine gute Referenz.

Ursache 4: Unterschiedliche Pfadkosten (IGP) und Policy-Based Routing

Schon kleine Änderungen in IGP-Metriken, SR-Policies oder PBR-Regeln können die Symmetrie brechen. Besonders riskant ist eine Kombination aus PBR (z. B. „bestimmter Traffic muss durch Firewall“) und ECMP/TE, wenn nicht explizit sichergestellt ist, dass der Rückweg denselben Servicepfad nimmt.

Ursache 5: Stateful Cluster ohne konsistente Session-Verteilung

Viele Firewalls/CGNATs laufen als Cluster. Wenn der Cluster nicht state-sharing-fähig ist oder wenn das State-Sync-Design nicht zum Routing passt, kann Asymmetrie bereits innerhalb eines PoPs auftreten: Hinweg trifft Member 1, Rückweg Member 2. Das ist häufig ein „Split-Brain“-ähnliches Symptom auf Datenebene, auch wenn die Cluster-Control-Plane „gesund“ wirkt.

Typische Auswirkungen auf Firewalls

Firewalls sind besonders empfindlich, weil sie häufig mehr als nur NAT machen: Zone-Based Policies, Application Inspection, IDS/IPS, TLS-Inspection, Rate-Limits. Asymmetrie führt daher zu einer breiten Palette von Symptomen.

Typische Auswirkungen auf CGNAT

CGNAT hält NAT-Mappings (z. B. private:port → public:port) und oft zusätzliche State-Informationen (Timeouts, ALG, Port-Block-Allocation). Wenn Rückverkehr nicht zur Instanz zurückkehrt, die das Mapping angelegt hat, ist das Mapping „unbekannt“ und Pakete werden verworfen.

Warum „nur manche Kunden“ betroffen sind

Asymmetrie tritt nicht immer gleichmäßig auf. Drei Faktoren erklären die selektive Wahrnehmung:

Beweisführung mit Telemetrie: Asymmetrie sicher nachweisen

Asymmetrisches Routing ist im Incident nur dann lösbar, wenn Sie es sauber beweisen: welcher Teilpfad geht über welche Instanz, und wo geht der Rückverkehr verloren. Dafür reichen „Traceroutes“ selten aus; Sie brauchen ein kombiniertes Set aus Flow-, Session- und Routing-Telemetrie.

Telemetrie-Baustein 1: Stateful Counters (Firewall/CGNAT)

Telemetrie-Baustein 2: Flow-Daten (NetFlow/IPFIX)

Telemetrie-Baustein 3: Routing- und Pfadtelemetrie

Asymmetrie-Indikator über Richtungssicht (MathML)

AsymmetryIndex = flows_one_way flows_total

Dieser Index ist kein perfekter Beweis, aber ein praktischer Frühindikator. Wenn er im Incident stark steigt, ist asymmetrisches Routing ein sehr wahrscheinlicher Faktor.

Typische Failure Modes als Mustererkennung

Die folgende Mustererkennung hilft, schneller von Symptom zu Ursache zu kommen.

Muster: Viele „No-Session“-Drops, Sessions werden ständig neu aufgebaut

Muster: Nur bestimmte Ziele/ASNs betroffen

Muster: Probleme nach Failover/Recovery oder nach Maintenance

Mitigation-Strategien: Was im ISP-Edge realistisch funktioniert

Es gibt nicht die eine Lösung, weil Architektur und Produkte variieren. Dennoch haben sich im Provider-Umfeld bestimmte Strategien bewährt.

Strategie 1: Symmetrie erzwingen (Stateful Service Chaining)

Strategie 2: Stateful Cluster mit robustem State Sharing

Strategie 3: Deterministische Session-Stickiness

Strategie 4: Fail-Open vs. Fail-Closed bewusst entscheiden

Manche Provider wählen für bestimmte Dienste Fail-Open (Traffic darf bei Stateful-Problemen durchrutschen) oder Fail-Closed (Sicherheit vor Verfügbarkeit). Für CGNAT ist Fail-Open meist nicht realistisch, für bestimmte Firewall-Funktionen kann es aber als Notfallmodus diskutiert werden. Entscheidend ist, dass diese Entscheidung dokumentiert und getestet ist.

Strategie 5: Inbound Traffic Engineering und PoP-Lokalisierung

Runbook: Schnelle Diagnose-Checkliste für NOC/On-Call

Diese Checkliste ist bewusst auf „Minuten“ optimiert. Ziel ist schnelle Klassifikation und erste Mitigation.

Evidence Pack: Pflichtdaten für RCA und Vendor-/Peer-Eskalation

Outbound-Ressourcen

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Lieferumfang:

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.

 

Exit mobile version