Azure/AWS Netzwerkprobleme: Security Groups, NACLs und Routen debuggen

Red Snapper

1 month ago

Azure/AWS Netzwerkprobleme zeigen sich in der Praxis oft gleich: Eine VM/EC2 ist „up“, aber nicht erreichbar. Ein Service funktioniert intern, aber nicht von außen. Oder nur bestimmte Subnetze können miteinander sprechen. Die Ursache liegt jedoch selten „im Internet“, sondern fast immer in drei Bereichen, die sich gegenseitig beeinflussen: Security Groups/NSGs (stateful Regeln am Workload), NACLs bzw. subnetzbasierte Filter (stateless in AWS) und Routen (Route Tables/UDRs, Gateways, Peering, Transit). Genau diese Kombination macht Cloud-Netzwerke so mächtig – und beim Troubleshooting so fehleranfällig: Eine einzige fehlende Rückroute, ein zu enger Ephemeral-Port-Bereich, eine falsche Next-Hop-Auswahl oder eine deny-Regel mit höherer Priorität reicht aus, um „alles“ kaputt wirken zu lassen. Dieser Leitfaden liefert einen systematischen Debug-Ansatz, mit dem Sie in AWS und Azure schnell klären, ob das Problem an Security-Regeln, NACLs oder Routing liegt, und wie Sie es mit Bordmitteln (Flow Logs, Reachability Analyzer, Network Watcher) belegbar nachweisen.

Das mentale Modell: Datenpfad immer in beide Richtungen denken

Cloud-Troubleshooting scheitert häufig daran, dass nur der Hinweg betrachtet wird („Ich erlaube Port 443 inbound“), der Rückweg aber vergessen wird. Besonders bei stateless Filtern und bei Routenänderungen ist der Rückweg der entscheidende Teil. Notieren Sie für jeden Testfall immer:

Quelle (Client-IP, Subnetz, VPC/VNet, Internet, On-Prem)
Ziel (Private IP, Public IP, Load Balancer, Private Endpoint)
Protokoll/Port (TCP/UDP, Service-Port, Ephemeral Ports)
Hinweg (Route und Security auf dem Weg zum Ziel)
Rückweg (Route und Security zurück zur Quelle)

Praxisregel: Wenn nur eine Richtung funktioniert (z. B. Ping geht raus, Antwort kommt nicht zurück), ist es oft Routing-Asymmetrie, stateless Filter oder NAT.

AWS vs. Azure: Begriffe, die Sie sauber zuordnen sollten

Die Konzepte sind ähnlich, aber die Namen unterscheiden sich. Wenn Sie beides betreiben, hilft eine klare Zuordnung:

AWS Security Group (SG) ↔ Azure Network Security Group (NSG) (beide überwiegend stateful, an NIC/VM bzw. ENI/Instance gekoppelt)
AWS Network ACL (NACL) ↔ Azure subnet/NSG auf Subnetz-Ebene (AWS NACL ist stateless; Azure NSG ist stateful, aber Prioritäten/Regeln sind entscheidend)
AWS Route Table ↔ Azure Route Table / UDR (User Defined Routes)
AWS IGW/NAT GW/TGW ↔ Azure Internet/NAT Gateway/Virtual WAN/Route Server (je nach Architektur)

Der Standardablauf: Drei Fragen, die 80% der Fälle lösen

Bevor Sie tief in Tools gehen, beantworten Sie diese drei Fragen. Das ist der schnellste Weg zur richtigen Problemklasse.

Kommt der Traffic überhaupt am Ziel an? (Hinweg) – wenn nein: Route oder inbound Security.
Kann das Ziel antworten und erreicht die Antwort die Quelle? (Rückweg) – wenn nein: Rückroute, stateless Regeln, Ephemeral Ports oder NAT.
Wird der Traffic irgendwo „versteckt“? – z. B. durch falsche Public/Private IP, falsches Subnetz, falschen Load Balancer, falschen DNS-Eintrag.

Routing debuggen: Der häufigste Root Cause bei „geht nicht“

Routing-Probleme wirken besonders irritierend, weil Security-Regeln oft korrekt aussehen – trotzdem kommt nichts an. Prüfen Sie Routing immer an den entscheidenden Bindungspunkten: Route Table am Subnetz (AWS) bzw. UDR Association am Subnetz (Azure), plus alle Transit-/Peering-Pfade.

AWS Route Tables: Typische Fehler

Falsche Route Table am Subnetz: Subnetze sind mit der falschen Route Table assoziiert (häufig nach IaC-Änderungen).
Fehlende Default Route: Kein 0.0.0.0/0 zum Internet Gateway (Public Subnet) oder zur NAT Gateway (Private Subnet).
Blackholes: Route zeigt auf gelöschtes Target (z. B. alte NAT GW) oder „blackhole“ in der Tabelle.
Peering nicht vollständig: VPC Peering ist nicht transitiv; Route in beide Richtung nötig, und transitive Erwartungen führen zu „Teil-Erreichbarkeit“.

Azure UDR/Route Tables: Typische Fehler

UDR nicht am Subnetz gebunden: Route existiert, greift aber nicht, weil die Route Table nicht assoziiert ist.
Next Hop falsch: Traffic wird zu NVA/Firewall geschickt, die den Rückweg oder bestimmte Ports nicht zulässt.
Effektive Routen übersehen: Azure kombiniert Systemrouten und UDRs; die „effective routes“ sind entscheidend.
Forced Tunneling: Alles geht über On-Prem/NVA; wenn dort NAT/Policy fehlt, wirkt Cloud „offline“.

Security Groups und NSGs: Warum „Inbound erlaubt“ trotzdem nicht reicht

Security Groups (AWS) und NSGs (Azure) sind meist stateful: Wenn eine Session erlaubt ist, ist der Rückverkehr in der Regel automatisch erlaubt. Trotzdem gibt es typische Stolperfallen:

Falsche Richtung: Inbound-Regel am falschen Objekt (falsche SG/NSG am falschen NIC/Subnetz).
Falsche Quelle: Quelle ist nicht die erwartete Client-IP, sondern z. B. ein Load Balancer, NAT-Gateway oder Proxy.
Priority/Rule Order: In Azure entscheidet die Priorität; ein Deny mit höherer Priorität schlägt jede Allow-Regel.
Zu enge Portdefinition: Nur 443 erlaubt, aber App benötigt zusätzlich 80 (Redirect), 53 (DNS), 123 (NTP) oder interne Ports.

Der Klassiker: Load Balancer und „falsche Quell-IP“

Wenn ein Client über einen Load Balancer kommt, sieht die VM/Instance nicht zwingend die originale Client-IP. Je nach LB-Typ (L4/L7) und Konfiguration kann die Quelle die IP des Load Balancers sein oder ein anderes Gateway. Dann greifen SG/NSG-Regeln, die „nur Corporate IPs“ erlauben, nicht wie gedacht.

Health Checks vergessen

Load Balancer Health Checks brauchen eigene Regeln. Wenn Health Checks geblockt sind, ist der Backend-Pool „unhealthy“, und der Service wirkt down, obwohl die App läuft.

NACLs und subnetzbasierte Filter: Stateless macht Rückwege zum Problem

AWS NACLs sind stateless: Sie müssen Inbound und Outbound explizit erlauben – inklusive Rückverkehr. Genau hier entstehen viele „es geht nur manchmal“-Fehler, besonders bei TCP.

Ephemeral Ports: Warum Rückverkehr oft blockiert wird

Wenn ein Client eine TCP-Verbindung zu 443 aufbaut, nutzt er auf der Clientseite einen dynamischen Quellport (Ephemeral Port). Die Antwort kommt zurück zu diesem Ephemeral Port. Wenn Ihre NACL nur „Inbound 443“ erlaubt, aber nicht die Ephemeral Ports, kann die Antwort geblockt werden.

Symptom: SYN geht raus, SYN/ACK kommt nicht durch, oder Requests gehen raus, Antworten fehlen.
Fix: In AWS NACLs die passenden Ephemeral-Port-Ranges in der richtigen Richtung erlauben (inbound/outbound), passend zur Architektur.

Azure: NSG auf Subnetz vs. NIC

Azure NSGs sind stateful, aber es kann mehrere NSGs geben (am Subnetz und am NIC). Effektiv gilt: Der Verkehr muss durch beide Ebenen. Eine blockierende Regel auf einer Ebene reicht aus.

Die Debug-Tools: So bekommen Sie Beweise statt Vermutungen

Cloud-Plattformen bieten heute starke Bordmittel, mit denen Sie „warum“ sichtbar machen. Nutzen Sie diese Tools konsequent, statt nur Regeln zu raten.

AWS: VPC Reachability Analyzer, Flow Logs und Route-Checks

VPC Reachability Analyzer: Simuliert den Pfad zwischen Quelle und Ziel und zeigt, an welcher Stelle es scheitert (Route/SG/NACL).
VPC Flow Logs: Zeigen ACCEPT/REJECT auf ENI/Subnetz/VPC-Ebene (sehr stark für Security-Debugging).
Route Tables & Targets: Prüfen Sie „blackhole“, IGW/NAT GW/TGW Attachments und Peering-Routen beidseitig.

Azure: Network Watcher, NSG Flow Logs und Effective Security Rules

Network Watcher – Connection Troubleshoot: Pfadprüfung inkl. Next Hop, NSG-Auswertung und Hop-Details.
NSG Flow Logs: Sichtbarkeit, ob Traffic von NSGs erlaubt oder verworfen wird (inkl. 5-Tuple-Details).
Effective Routes / Effective Security Rules: Zeigt, welche Routen und NSG-Regeln tatsächlich wirken.

Praxis-Workflow: „Service in der Cloud ist nicht erreichbar“

Dieser Ablauf funktioniert für AWS und Azure gleichermaßen, unabhängig davon, ob es um SSH/RDP, HTTPS oder APIs geht.

Schritt: Minimaltest definieren

Ein konkreter Port (z. B. TCP/443) und ein konkretes Ziel (Private IP oder LB-DNS).
Test aus einer definierten Quelle (On-Prem-Client, Bastion, andere VM im gleichen Subnetz).

Schritt: DNS und Zielobjekt verifizieren

Löst DNS auf die erwartete IP (Public vs. Private)?
Zeigt DNS auf einen Load Balancer, Private Endpoint oder direkt auf die VM?
Stimmt die Zuordnung (NIC/ENI, Subnetz, Security Group/NSG)?

Schritt: Routing in beide Richtungen prüfen

Quelle kennt Route zum Zielnetz?
Cloud-Subnetz kennt Route zurück zum Quellnetz (Peering, VPN, TGW/VWAN)?
Gibt es Forced Tunneling oder NVA-Pfade, die den Rückweg verändern?

Schritt: Security Layer abarbeiten

Workload-Regeln: SG/NSG inbound (Service-Port) und ggf. source eingeschränkt korrekt?
Subnetzfilter: NACLs (AWS) oder Subnetz-NSG (Azure) erlauben Hin- und Rückweg?
Zwischenkomponenten: WAF/Firewall/NVA blockt? Logs/Hits prüfen.

Schritt: Flow Logs/Analyzer nutzen

Sehen Sie REJECT/Denied? Dann ist es Security oder Route zu einem Filterpunkt.
Sehen Sie ACCEPT, aber App reagiert nicht? Dann ist es eher OS/App (Listen-Port, lokale Firewall, Service down).

Sonderfälle, die häufig Zeit kosten

Asymmetrisches Routing über zwei Gateways

In Hybrid-Setups mit zwei VPNs, zwei Direct-Links oder mehreren NVAs entsteht schnell Asymmetrie. Das ist für stateful Firewalls und NAT problematisch.

Indiz: Flow Logs zeigen Requests, aber Antworten verschwinden; Firewalls melden „asymmetric“ oder States passen nicht.
Fix: Pfade symmetrieren (BGP-Attributes/UDR, Policy Routing), HA/State-Sync korrekt konfigurieren.

MTU/PMTUD: „Klein geht, groß hängt“

VPN/Encapsulation reduziert die effektive MTU. Große TLS-Handshakes oder große Antworten können hängen bleiben, wenn ICMP blockiert ist oder MSS nicht passt.

Indiz: Kleine Pings ok, große Transfers hängen; TCP Retransmissions bei großen Segmenten.
Fix: MTU/MSS entlang des Pfades prüfen, MSS-Clamping an VPN/NVA, ICMP sinnvoll zulassen.

Mehrere Security-Ebenen in Azure

Azure hat häufig mehrere Sicherheitslagen: NSG am Subnetz, NSG am NIC, Azure Firewall, WAF. Eine einzige deny-Regel mit hoher Priorität reicht, um alles zu blocken.

Best Practices: So vermeiden Sie wiederkehrende Fehler

IP-Adressplanung diszipliniert: keine Overlaps zwischen On-Prem und Cloud; klare Prefix-Listen pro Domäne.
Standardisierte Security Patterns: Baseline-NSG/SG-Templates, Health-Check-Regeln, klar definierte Source-Gruppen.
Routing als Code: Route Tables, Peering und Propagation über IaC mit Review-Prozess.
Observability aktivieren: Flow Logs und Analyzer/Watcher als Standard, nicht erst bei Incidents.
Diag-Endpoints: Eine kleine Test-VM pro Segment spart im Incident enorm Zeit.
Dokumentierter Rückweg: Für jede Verbindung einen klaren Rückweg definieren und testen (besonders bei Multi-Hub/Active-Active).

Outbound-Links zur Vertiefung

Checkliste: Azure/AWS Netzwerkprobleme mit Security Groups, NACLs und Routen debuggen

Testfall definieren: Quelle, Ziel, Port/Protokoll, Richtung, Zeitpunkt.
DNS prüfen: zeigt der Name auf die richtige IP (Public/Private, LB/Endpoint)?
Routing prüfen (beide Richtungen): Route Tables/UDRs korrekt gebunden, Next Hop korrekt, Peering/Transit nicht „transitiv“ angenommen.
Security Groups/NSGs prüfen: richtige SG/NSG am richtigen Objekt, Quelle korrekt (LB/NAT/Proxy beachten), Azure-Prioritäten (Deny vor Allow) prüfen.
NACLs/Subnetzfilter prüfen: AWS NACL stateless – Inbound und Outbound inkl. Ephemeral Ports erlauben; in Azure Subnetz-NSG vs. NIC-NSG kombinieren.
Zwischenkomponenten prüfen: WAF/Azure Firewall/NVA, Health Checks und deren Regeln.
Flow Logs nutzen: AWS VPC Flow Logs bzw. Azure NSG Flow Logs zeigen ACCEPT/REJECT und den Blockpunkt.
Pfadanalyse nutzen: AWS Reachability Analyzer bzw. Azure Network Watcher/Connection Troubleshoot für „wo“ und „warum“.
MTU/PMTUD prüfen: wenn nur große Transfers hängen (VPN/Encapsulation), MSS-Clamping und ICMP-Handling.
Fix verifizieren: identischer Testfall, Vorher/Nachher vergleichen, Änderungen dokumentieren und als IaC/Template standardisieren.

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.