Route-Table-Debugging: Warum Workloads nicht aus der VPC herauskommen

Red Snapper

1 month ago

Route-Table-Debugging ist eine der häufigsten, aber am schwierigsten zu entwirrenden Ursachen, wenn Workloads „plötzlich“ nicht mehr aus der VPC herauskommen. Das äußert sich in Timeouts beim Zugriff auf externe APIs, fehlgeschlagenen Paketdownloads, nicht erreichbaren Container-Registries oder abreißenden Datenbank-Replikationen. In der Praxis ist die Route Table selten allein schuld – aber sie ist fast immer der Ort, an dem sich das Problem eindeutig nachweisen lässt, weil sie die entscheidende Frage beantwortet: Wohin schickt das Netz den Traffic als Nächstes? Gerade in Cloud-Umgebungen kommen zusätzliche Schichten hinzu: Subnet-Routen, Internet Gateways oder NAT Gateways, egress-only Gateways (IPv6), Transit Gateways, Peering-Verbindungen, VPN/Direct Connect, Firewalls/Appliances, sowie Security-Kontrollen wie NACLs, Security Groups und Policy-Routen. Dieser Artikel zeigt Ihnen, wie Sie Route Tables systematisch debuggen, warum Workloads nicht aus der VPC herauskommen, wie Sie typische Fehlkonfigurationen erkennen und wie Sie mit einer klaren Prüfreihenfolge (und einigen einfachen Rechenregeln) in Minuten statt Stunden zur belastbaren Diagnose kommen.

Das Grundmodell: Was „aus der VPC herauskommen“ technisch bedeutet

„Egress“ ist mehr als „Internet“. Ein Workload kann die VPC verlassen in Richtung öffentlicher Endpunkte, Managed Services, Partnernetze, On-Premises oder andere VPCs. Unabhängig vom Ziel gilt: Für jeden IP-Paketfluss muss eine Forward-Route existieren, und für zustandslose Pfade zusätzlich eine Return-Route. Cloud-Netze sind meist zustandsbehaftet (z. B. Security Groups), aber Routing bleibt richtungsabhängig. Deshalb ist die wichtigste Debugging-Disziplin: Den Pfad vom Source-Subnet bis zum Ziel schrittweise nachzuvollziehen.

Forward Path: Workload → Subnet Route Table → Next Hop (z. B. NAT, IGW, Firewall, TGW) → weiteres Routing
Return Path: Ziel → (Internet/On-Prem/Service) → öffentlicher Endpoint/NAT/Public IP → zurück in die VPC → Workload
State/Filter: Security Groups, NACLs, Firewall-Regeln, Proxy-Policies können Routing korrekt aussehen lassen, aber trotzdem blockieren

Route Tables in der Cloud: Was gleich ist und was sich unterscheidet

Die Grundprinzipien sind über Cloud Provider hinweg ähnlich: Routen bestehen aus Zielpräfix (CIDR) und Next Hop. Unterschiede liegen in Begriffen und in „Managed Defaults“. Als Referenz helfen die offiziellen Dokumentationen: AWS VPC Route Tables, Google Cloud VPC Routes und Azure User Defined Routes.

Longest Prefix Match: Die spezifischste Route gewinnt (z. B. /32 vor /0).
Subnet-Assoziation: Üblicherweise hängt ein Subnet an genau einer Route Table (oder einer „Main“-Route Table).
Next Hops: IGW/NAT/TGW/Firewall/Peering/VPN sind je nach Provider unterschiedlich benannt, aber funktional vergleichbar.
Default Routes: 0.0.0.0/0 (IPv4) oder ::/0 (IPv6) sind die „Ausgangstüren“ – und gleichzeitig die häufigsten Fehlerquellen.

Symptome richtig lesen: Woran Sie Routing-Probleme erkennen

Bevor Sie in Tabellen springen, lohnt es sich, das Fehlerbild zu klassifizieren. Routing-Probleme zeigen häufig charakteristische Muster:

Timeouts statt harte „Connection refused“: Timeouts deuten auf Drops im Pfad (Routing/Firewall/NACL), nicht auf erreichbaren Dienst.
Nur bestimmte Ziele betroffen: Wenn nur ein CIDR oder eine Region ausfällt, ist häufig eine spezifische Route, Policy-Route oder Firewall-Regel beteiligt.
Nur private Subnets betroffen: Häufig NAT/Default Route/Firewall-Egress.
Nur IPv6 oder nur IPv4 betroffen: Oft egress-only Gateway/IGW-Konfiguration oder fehlende AAAA/DNS-Aspekte.
Nur neue Pods/Instances betroffen: Hinweis auf falsche Subnet-Zuordnung, neue Route Table Association oder kaputte automatische Tags/Policies.

Die Debugging-Reihenfolge: Erst Route, dann Filter, dann „Exoten“

Eine robuste Prüfreihenfolge reduziert Suchraum. Bewährt hat sich diese Reihenfolge, weil sie schnell die groben Pfadfehler findet, bevor man sich in Details verliert:

1) Subnet identifizieren: In welchem Subnet läuft der Workload wirklich?
2) Route Table prüfen: Welche Route Table ist mit dem Subnet assoziiert?
3) Default Route prüfen: Gibt es 0.0.0.0/0 bzw. ::/0 und zeigt sie auf den richtigen Next Hop?
4) Spezifische Präfixe prüfen: Gibt es eine „überstimmende“ Route (z. B. /1, /8, /16), die Traffic umleitet?
5) Return Path absichern: NAT/Public IP/Peering/VPN müssen Rückwege ermöglichen.
6) Security Controls: Security Groups, NACLs, Firewall-Policies, Proxy-ACLs.
7) DNS/Name Resolution: Wird das Ziel korrekt aufgelöst, und passt die IP zur erwarteten Route?

Route-Table-Basics: Longest Prefix Match und warum „eine falsche Route“ alles kaputt macht

Viele Routing-Fehler entstehen durch Missverständnisse beim Longest Prefix Match. Eine Route Table ist kein „Regelwerk in Reihenfolge“, sondern eine Präfix-Auswahl: Das Ziel mit der längsten Übereinstimmung gewinnt. Das bedeutet: Eine scheinbar harmlose Route kann die Default Route aushebeln.

Mini-Rechenregel für Präfix-Spezifität

Je größer die Präfixlänge, desto spezifischer ist die Route (IPv4-Beispiel). /32 ist eine einzelne Adresse, /0 ist „alles“. Formal können Sie die Anzahl möglicher Adressen pro Präfix abschätzen:

addresses = 2 32 – prefix

Wenn Sie also versehentlich eine breite Route wie 0.0.0.0/1 oder 128.0.0.0/1 auf ein falsches Next Hop zeigen lassen, routen Sie „die Hälfte des Internets“ dorthin – und die Probleme wirken zufällig, obwohl sie deterministisch sind.

Der Klassiker: Private Subnets ohne funktionierendes NAT

In vielen Designs laufen Workloads in privaten Subnets ohne öffentliche IP. Dann funktioniert Egress typischerweise nur über ein NAT (NAT Gateway/NAT Instance). Route-Table-Fehler in diesem Bereich sind besonders häufig:

Fehlende Default Route: 0.0.0.0/0 existiert nicht oder zeigt auf „local“ statt NAT/Firewall.
Falscher Next Hop: Default Route zeigt auf ein IGW, obwohl der Workload keine öffentliche IP hat (führt oft zu Drops).
NAT in falscher AZ: AZ-übergreifender Traffic kann funktionieren, aber teuer und störanfällig sein; bei strengen Policies scheitert er.
NAT ohne Internet-Zugang: Das NAT-Subnet hat selbst keine Route zum Internet Gateway oder ist durch NACL/Firewall blockiert.
Ephemeral-Port/Conntrack-Limits: NAT kann „da“ sein, aber unter Last Ports/State erschöpfen (Symptom: intermittierende Timeouts).

Praktisch prüfen Sie: (1) Private Subnet Route Table → 0.0.0.0/0 → NAT, (2) Public/NAT Subnet Route Table → 0.0.0.0/0 → IGW, (3) Security/NACL: ausgehend erlaubt, (4) observability: steigende Drops/Connections am NAT.

Internet Gateway vorhanden, aber trotzdem kein Egress

Ein Internet Gateway (oder analoger Konstruktion) allein reicht nicht. Häufig sind es nicht die Routen, sondern fehlende Voraussetzungen:

Keine öffentliche IP: Workload ist im „public subnet“, hat aber keine Public IP (oder keine korrekte Zuordnung). Route stimmt, aber Return Path fehlt.
Source/Destination Checks und Appliances: Wenn ein Workload als Router/Firewall dienen soll, kann ein aktivierter Source/Destination Check Traffic blockieren (providerabhängig).
Security Group Egress zu restriktiv: Ausgehend nicht erlaubt (besonders bei „deny-all“-Baselines).
NACL blockt Ephemeral Ports: Rückverkehr kommt auf dynamischen Ports zurück; wenn NACLs zu eng sind, sieht es wie Routing aus.

Gerade NACLs sind tückisch, weil sie zustandslos sind: Sie müssen Hin- und Rückrichtung explizit erlauben. Wenn Sie hier eine schnelle Referenz brauchen: Die Grundlagen von TCP/UDP und Ports lassen sich gut über RFC 793 (TCP) und RFC 768 (UDP) einordnen.

Transit Gateway, Peering, VPN: Wenn „raus“ eigentlich „in ein anderes Netz“ bedeutet

Viele Egress-Probleme entstehen nicht beim Internetzugang, sondern bei privaten Zielen: On-Premises, Partnernetze oder andere VPCs. Hier ist der häufigste Fehler: Forward Path vorhanden, Return Path fehlt – oder es gibt asymmetrisches Routing durch mehrere Gateways.

Peering ohne transitive Routen: VPC Peering ist typischerweise nicht transitiv; Sie können nicht „durch“ eine VPC weiter routen, ohne explizite Architektur dafür.
Überlappende CIDRs: Wenn VPC- und On-Prem-CIDRs überlappen, wird Routing unzuverlässig oder unmöglich.
Asymmetrie durch mehrere Exits: Hinweg über TGW, Rückweg über VPN (oder umgekehrt) – Firewalls und stateful Geräte droppen Rückverkehr.
Route Propagation fehlt: Dynamische Routen (BGP) kommen nicht an oder werden nicht in Route Tables übernommen.
Policy-basiertes Routing: Firewall entscheidet nach Quelle/Port anders als Ihre Route Table – das wirkt wie „zufällige“ Unreachability.

Asymmetrisches Routing erkennen

Asymmetrie zeigt sich oft so: ICMP/Ping geht (oder geht nicht), TCP SYN geht raus, aber SYN-ACK kommt nie zurück. Wenn Sie Tracing/Flow Logs haben, suchen Sie nach „ACCEPT outbound, REJECT inbound“ oder „outbound seen, inbound missing“. Das ist ein starkes Indiz, dass Rückwege oder stateful Firewalls nicht passen.

Die versteckte Fehlerquelle: DNS löst auf eine „falsche“ IP auf

Manchmal ist Routing korrekt – aber Sie routen zu einer unerwarteten Ziel-IP. Das passiert z. B. bei Multi-Region-Setups, Anycast/CDN, PrivateLink/Private Service Connect, split-horizon DNS oder wenn interne und externe Zonen unterschiedliche Antworten liefern. Debugging-Regel: Prüfen Sie immer die aufgelöste IP und deren CIDR, bevor Sie Routen bewerten.

Split-Horizon DNS: Intern wird eine private IP geliefert, extern eine öffentliche.
IPv6 bevorzugt: Client nutzt AAAA, aber IPv6-Egress ist nicht korrekt konfiguriert.
Service-Endpunkte variieren: Externe API liefert andere IPs je nach Region/Resolver.
Private Endpoints: Ziel liegt in einem privaten CIDR, Route Table zeigt aber nicht auf das passende Gateway/Endpoint.

Für DNS-Grundlagen ist Cloudflare: Was ist DNS? eine gut verständliche Übersicht, um Begriffe wie Resolver, autoritativ und TTL sauber einzuordnen.

IPv6-Egress: egress-only Gateway, ::/0 und typische Stolperfallen

IPv6 wird oft „nebenbei“ aktiviert und dann vergessen. Das führt zu schwer zu interpretierenden Problemen: Manche Libraries preferieren IPv6, manche Endpoints liefern AAAA, und plötzlich scheitert Egress scheinbar sporadisch. Typische Fehlerbilder:

::/0 fehlt: Kein Default Route für IPv6.
Falscher Next Hop: IPv6 braucht häufig einen anderen Gateway-Typ als IPv4-NAT.
Security Rules nicht dual-stack: Egress/Ingress-Regeln erlauben IPv4, blockieren IPv6.
DNS liefert AAAA, aber App erwartet IPv4: Timeouts durch fehlenden IPv6-Pfad.

Praktische Regel: Wenn IPv6 aktiv ist, behandeln Sie IPv4 und IPv6 als zwei getrennte Routing-Probleme mit eigenen Route Tables, Next Hops und Policies.

Route Table Association: Der Fehler, der wie „Magie“ wirkt

Wenn Workloads „in Subnet A“ funktionieren, „in Subnet B“ aber nicht, ist häufig nicht die Route Table falsch – sondern die Zuordnung. Besonders in großen VPCs mit vielen Subnets wird die „Main Route Table“ versehentlich verwendet oder ein neues Subnet bekommt die falsche Association.

Neues Subnet hängt an der Main Route Table: Die Main hat oft konservative Routen ohne Internet/NAT.
IaC-Drift: Terraform/CloudFormation sagt „assoziiert“, Konsole zeigt etwas anderes (oder umgekehrt).
Environment-Mix: Staging-Route Table wird aus Versehen an Production-Subnet gebunden.
Multi-AZ inkonsistent: Subnets in AZ1 und AZ2 haben unterschiedliche Route Tables, obwohl sie identisch sein sollten.

Debugging-Tipp: Erstellen Sie eine „Soll-Matrix“: Subnet → Route Table → Default Route Next Hop. Ein Blick zeigt oft sofort, wo ein Subnet aus der Reihe tanzt.

Security Groups und NACLs: Wenn Routing stimmt, aber Pakete trotzdem verschwinden

Viele Teams springen zu früh auf Security, aber in der Praxis ist es wichtig, Security als zweiten Schritt konsequent zu prüfen. Zwei Muster sind besonders häufig:

Stateful vs. stateless verwechselt: Security Groups sind typischerweise zustandsbehaftet, NACLs nicht. Rückverkehr muss bei NACLs explizit erlaubt sein.
Ephemeral Ports blockiert: Outbound geht auf Port 443 raus, Return kommt auf einem Ephemeral Port zurück. Wenn NACL nur „443“ erlaubt, scheitert es.
Zu restriktive Egress-Regeln: „Deny by default“ ist sinnvoll, braucht aber saubere Allow-Listen (Ziele, Ports, Protokolle).
Appliance/Firewall-State: Bei asymmetrischem Routing droppen stateful Firewalls Rückverkehr, auch wenn Routen korrekt aussehen.

Flow Logs und Traces: Evidence sammeln statt raten

Route-Table-Debugging wird deutlich schneller, wenn Sie Evidence aus Telemetrie nutzen. Je nach Cloud und Setup stehen Ihnen VPC Flow Logs, Firewall Logs, Load-Balancer-Logs oder eBPF-basierte Host-Telemetrie zur Verfügung. Nutzen Sie diese Daten, um die Kernfrage zu beantworten: Wird das Paket gesendet? Wird es irgendwo gedroppt? Kommt eine Antwort zurück?

Outbound gesehen, inbound fehlt: Return Path oder stateful Firewall problematisch.
Outbound gar nicht gesehen: Route Table Association, lokale Policy oder Security blockiert bereits am Source.
Drops an einem Hop: NACL/Firewall/Appliance-Regel oder fehlende Route am Next Hop.
Nur bestimmte Ziele droppen: Spezifische Route oder Policy-Route greift.

Wenn Sie zusätzlich Distributed Tracing einsetzen, kann es helfen, „Netzwerk vs. App“ sauber zu trennen. Für konsistente Telemetrie ist OpenTelemetry ein gängiger Standard.

Praktische Debugging-Checkliste: In 10 Minuten zur Root-Cause-Kategorie

Quelle bestimmen: Instance/Pod/Node und sein Subnet, inklusive AZ.
Ziel bestimmen: Ziel-Domain auflösen, IP/CIDR notieren (IPv4/IPv6 getrennt).
Route Table Association prüfen: Subnet → welche Route Table?
Longest Prefix Match prüfen: Welche Route greift für die Ziel-IP (spezifische vor Default)?
Default Route prüfen: 0.0.0.0/0 bzw. ::/0 vorhanden und richtiger Next Hop?
NAT/IGW-Pfad prüfen: Wenn private Subnets: Route zu NAT; NAT-Subnet: Route zu IGW.
Return Path prüfen: Public IP/NAT, Peering/VPN-Rückroute, keine Asymmetrie.
Security prüfen: SG Egress, NACL hin+zurück, Firewall/Proxy Policies.
Telemetrie nutzen: Flow Logs/Firewall Logs für Drop-Ort und Richtung.
Change-Overlay: Letzte Route/Policy/IaC-Änderungen im Zeitfenster.

Typische Root Causes als Musterkatalog

Zum Schluss (ohne „Fazit“, aber als praktische Arbeitsliste) hilft ein Musterkatalog, der in der Realität den Großteil der Fälle abdeckt. Wenn Workloads nicht aus der VPC herauskommen, sind es sehr häufig diese Klassen:

Fehlende oder falsche Default Route: 0.0.0.0/0 zeigt nicht auf NAT/IGW/Firewall wie erwartet.
Falsche Route Table Association: Subnet hängt an Main oder falscher Table.
Überstimmende spezifische Route: Breites Präfix (z. B. /1, /8) lenkt Traffic ungewollt um.
NAT-Pfad unvollständig: NAT hat keinen Internetpfad oder ist durch NACL/Firewall blockiert.
Asymmetrisches Routing: Hinweg und Rückweg laufen über unterschiedliche Gateways/Firewalls.
DNS zeigt auf unerwartete IP: Split-horizon, IPv6, Private Endpoint statt Public Endpoint.
NACL/Egress zu restriktiv: Ephemeral Ports oder Rückrichtung fehlen.
Provider/Managed Service Degradation: Routing wirkt korrekt, aber der Next Hop (LB/NAT/Firewall) ist gesättigt oder degradiert.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.