NetworkPolicy-Debugging: False Positive „Network Down“ vermeiden

Red Snapper

1 month ago

NetworkPolicy-Debugging: False Positive „Network Down“ vermeiden – das klingt nach einem Spezialthema, ist aber in Kubernetes-Umgebungen ein wiederkehrender Klassiker. Viele Incidents beginnen mit dem gleichen Symptom: Requests laufen in Timeouts, Health Checks schlagen fehl, Services wirken „weg“. Im War-Room fällt dann schnell der Satz „Netzwerk ist down“ – obwohl das Underlay stabil ist und selbst Layer-3-Routing korrekt funktioniert. Der eigentliche Auslöser ist oft eine NetworkPolicy, die ungewollt Traffic blockiert, oder eine scheinbar harmlose Änderung (Labels, Namespaces, Ports), die eine bestehende Policy plötzlich wirksam macht. Besonders tückisch: Ein Policy-Deny sieht aus Sicht der Anwendung häufig exakt so aus wie Paketverlust, DNS-Probleme oder eine kaputte Route – denn bei vielen CNIs äußert sich Blockierung nicht als „Connection refused“, sondern als stilles Dropping. In diesem Artikel lernen Sie, wie Sie NetworkPolicy-Probleme systematisch debuggen, typische Fehlinterpretationen vermeiden und mit klarer Evidenz belegen, ob wirklich ein „Network Down“ vorliegt oder lediglich eine policy-bedingte Blockade. Dabei mappen wir Deny-Symptome auf OSI-Layer, zeigen praxistaugliche Checks und erklären, wie Sie Policy-Änderungen so gestalten, dass sie keine überraschenden Blackouts erzeugen.

Warum NetworkPolicies so oft wie „Netzwerk-Ausfall“ wirken

NetworkPolicies sind ein Sicherheitsmechanismus auf Kubernetes-Ebene, der definiert, welcher Pod mit wem kommunizieren darf. Die wichtigste Eigenschaft für das Debugging: Viele Implementierungen blockieren Traffic durch Drop (still verwerfen) statt durch Reject. Das führt zu Timeouts, Retries und scheinbar „hängenbleibenden“ Verbindungen. Genau diese Symptome erwarten Teams auch bei Routingproblemen oder Paketverlust. Hinzu kommt, dass Policies in Kubernetes nicht global gelten, sondern selektiv: Sie wirken nur auf Pods, die von einer Policy ausgewählt werden, und nur für die Richtungen (Ingress/Egress), die in der Policy definiert sind.

Timeout statt klarer Fehlermeldung: Drop-basierte Blockade erzeugt „Connection timed out“ statt „refused“.
Selektive Betroffenheit: Nur bestimmte Pods/Namespaces/Ports sind betroffen – das sieht wie „flaky network“ aus.
Indirekte Effekte: DNS (UDP/TCP 53), Sidecars, Probes und Metrics können separat brechen und das Bild verzerren.
Änderungen außerhalb der Policy: Label-Wechsel, neue Deployments, neue Ports machen eine bestehende Policy plötzlich relevant.

Eine solide Grundlage zur Semantik finden Sie über den Anchor-Text Kubernetes Network Policies. Für CNI-spezifische Unterschiede lohnt sich ein Blick in die Dokumentation Ihres Plugins (z. B. Calico oder Cilium).

Mentales Modell: Was NetworkPolicy kann – und was nicht

Um False Positives zu vermeiden, hilft ein klares Erwartungsmodell. NetworkPolicy ist kein vollständiger Firewall-Ersatz für alle Ebenen und nicht jede CNI-Implementierung verhält sich identisch. Dennoch gelten einige Kernaussagen fast immer:

Ohne CNI-Support keine Wirkung: Nur CNIs mit NetworkPolicy-Unterstützung setzen Policies durch.
Pod-Selektor ist zentral: Policies gelten nur für Pods, die durch podSelector (und ggf. namespaceSelector) erfasst werden.
Default-Allow bis Policy greift: Sobald ein Pod durch mindestens eine Policy für Ingress oder Egress „selektiert“ ist, gilt für diese Richtung Default-Deny – außer es gibt explizite Allow-Regeln.
Layer-Fokus: NetworkPolicy arbeitet primär auf L3/L4 (IP/Port/Protokoll); L7-Semantik gehört meist zu separaten Policy-Mechanismen.

Wenn Sie mit Calico arbeiten, ist der Anchor-Text Calico mit Kubernetes NetworkPolicy hilfreich, weil dort typische Fallstricke (DNS, egress, selectors) praxisnah beschrieben sind. Für Cilium ist Cilium Network Policy relevant, insbesondere wegen der eBPF-basierten Durchsetzung und optionaler L7-Funktionen.

OSI-Mapping: Warum der Fehler wie L3/L4 aussieht, aber Policy ist

Eine schnelle Einordnung gelingt, wenn Sie die Symptome auf OSI-Layer mappen. Policy-Probleme zeigen sich häufig wie Layer-3/4-Degradation, obwohl die Underlay-Connectivity intakt ist.

Layer 3 (IP): Pod-IP ist erreichbar? Häufig ja – aber nur aus bestimmten Quellen. Selektivität ist hier ein Hinweis.
Layer 4 (TCP/UDP): SYN geht raus, aber keine Antwort; UDP Requests „verschwinden“. Das ist typisch für Drop.
Layer 7 (HTTP): 504/Timeouts, steigende Retries, scheinbar „Upstream down“. Oft Folge, nicht Ursache.

Ein entscheidender Unterschied zu echtem „Network Down“: Bei Policy-Fehlern ist das Problem in der Regel reproduzierbar und konsistent für genau definierte Quell-/Zielkombinationen, während echte Netzwerkdegradation häufig breiter streut (z. B. nodeweit, AZ-weit, oder lastabhängig).

Die häufigsten False-Positive-Muster im Alltag

In der Praxis gibt es wiederkehrende Muster, die Teams zuverlässig in die Irre führen. Wenn Sie diese erkennen, sparen Sie sich lange Underlay-Diskussionen.

DNS wird unabsichtlich blockiert

Viele Policies erlauben zwar den App-Port, vergessen aber DNS. Ergebnis: Applikationen können Hosts nicht mehr auflösen, wodurch es wie ein Netzwerk- oder Upstream-Ausfall wirkt. Besonders tückisch ist, dass manche Clients DNS cachen; der Fehler tritt dann „random“ auf, sobald TTLs ablaufen.

UDP 53 und ggf. TCP 53 (bei großen Antworten, DNSSEC, Fallback) berücksichtigen
DNS-Targets korrekt selektieren (kube-dns/CoreDNS läuft meist in einem eigenen Namespace)

Ingress erlaubt, Egress vergessen

Ein Pod kann Anfragen empfangen, aber keine Antworten oder Upstream-Calls absetzen, weil Egress Default-Deny geworden ist. Das fühlt sich wie „Routing kaputt“ an, ist aber reine Policy-Semantik.

Labels ändern den Policy-Scope

Ein Deployment bekommt ein neues Label (oder ein altes verschwindet), wodurch es plötzlich von einer Policy erfasst wird. Umgekehrt kann ein Zielpod nicht mehr matchen, sodass Allow-Regeln ins Leere laufen.

Pod-Labels vor und nach dem Incident vergleichen
Namespace-Labels prüfen, wenn namespaceSelector genutzt wird

Health Probes, Metrics und Sidecars brechen zuerst

Liveness/Readiness Probes oder Metrics-Scrapes (Prometheus) sind oft separate Ports/Paths. Wenn diese blockiert werden, wirkt der Service „down“, obwohl der Haupttraffic vielleicht noch teilweise funktioniert – oder umgekehrt.

Debugging-Flow: In 10 Minuten von Symptom zu Policy-Evidenz

Das Ziel ist eine schnelle, belastbare Aussage: „Es ist NetworkPolicy“ oder „Es ist nicht NetworkPolicy“. Der folgende Flow ist bewusst operativ gehalten.

Schritt 1: Betroffenheit eingrenzen

Welche Pods sind betroffen? Ein Deployment, ein Namespace, nur ein Nodepool?
Ist es richtungsabhängig? (nur Ingress, nur Egress, beides)
Ist es portabhängig? (z. B. 443 ok, 8443 down)

Policy-Fehler sind oft „scharf“ abgegrenzt: gleiches Muster, gleiche Targets. Netzwerkdegradation ist häufiger „weich“ und last-/pfadabhängig.

Schritt 2: Reproduzierbarer Minimaltest

Statt komplexer End-to-End-Flows testen Sie minimal: Quellpod → Zielpod auf exakt einem Port. Idealerweise nutzen Sie einen Debug-Pod im gleichen Namespace und einen im anderen Namespace, um Selektoren zu validieren. Ziel ist nicht Perfektion, sondern Reproduzierbarkeit.

Schritt 3: Prüfen, ob der Zielpod von Policies selektiert wird

Die Kernfrage lautet: Greift überhaupt eine Policy auf den betroffenen Pod (Ingress/Egress)? Sobald das der Fall ist, gilt Default-Deny für die jeweilige Richtung – und alle Ausnahmen müssen explizit erlaubt sein.

Liste der Policies im Namespace prüfen
PodSelector der Policies gegen die Labels des Pods matchen
Richtung beachten: ingress und egress getrennt analysieren

Schritt 4: Deny vs. Drop vs. Reject unterscheiden

Wenn Ihr CNI Drops nutzt, sehen Sie Timeouts. Einige Setups können aber auch Rejects erzeugen, was schneller sichtbar wird. Für die Diagnose ist wichtig: Timeouts allein beweisen kein Underlay-Problem. Sie beweisen nur „keine Antwort“ – und das kann Policy sein.

Schritt 5: CNI-spezifische Policy-Logs und Counter nutzen

Der schnellste Beweis ist ein steigender Deny-Counter oder ein Logeintrag, der explizit eine Policy nennt. Das hängt stark vom CNI ab:

Calico: Optional Flow Logs, Felix-Logs, iptables-Regeln; je nach Setup können Drops sichtbar gemacht werden.
Cilium: eBPF-basierte Observability, z. B. via Hubble, kann Policy-Denies sehr direkt zeigen.

Für Cilium/Hubble ist der Anchor-Text Hubble Observability besonders hilfreich, weil er erklärt, wie Flows inkl. Policy-Entscheidung sichtbar werden.

Typische Diagnosefehler – und wie Sie sie vermeiden

Viele False Positives entstehen nicht durch fehlendes Wissen, sondern durch falsche Reihenfolge oder unklare Hypothesen. Diese Fehler treten besonders häufig auf:

Nur „der Service“ wird getestet: Service-IPs und kube-proxy/eBPF können Symptome verschleiern. Testen Sie auch Pod-IP zu Pod-IP.
DNS wird als „separat“ betrachtet: DNS ist Teil des Netzwerks. Wenn DNS blockiert ist, wirken Upstreams down, obwohl nur die Auflösung fehlt.
Nur Ingress wird geprüft: Viele Incidents sind Egress-Fehler (z. B. Calls zu Datenbanken, APIs, Auth).
Selectors werden unterschätzt: Ein falsch gesetztes Label macht jede Allow-Regel wirkungslos.
Port/Protokoll vergessen: UDP vs. TCP, mehrere Ports pro App (Health/Metrics/Admin) – alles muss explizit passen.

„Policy wirkt korrekt, aber Traffic droppt“: Die häufigsten Root Causes

Wenn Teams bereits „alles geprüft“ haben, stecken oft diese Ursachen dahinter:

NamespaceSelector matcht nicht wie gedacht

Viele denken, namespaceSelector matcht auf den Namespace-Namen. Tatsächlich matcht er auf Labels am Namespace. Wenn die fehlen oder anders heißen, ist der Selector leer – und Ihre Allow-Regel greift nicht.

PodSelector matcht eine leere Menge

Ein Tippfehler im Label-Key oder ein Rollout, der Labels geändert hat, führt dazu, dass eine Regel ins Leere läuft. Das ist besonders häufig bei „app“, „component“, „tier“ oder team-spezifischen Labels.

Policy-Reihenfolge wird falsch angenommen

In Kubernetes-NetworkPolicy ist die Logik additiv: Wenn irgendeine Policy einen Flow erlaubt, ist er erlaubt. Es gibt kein explizites „Deny gewinnt“ innerhalb der Standard-NetworkPolicy. Viele interpretieren Policies aber wie Firewall-Regeln mit Reihenfolge. Das führt zu falschen Erwartungen.

Sidecar/Service Mesh verändert den Datenpfad

Mit Sidecars (z. B. Envoy) geht Traffic nicht mehr direkt vom Pod zur Ziel-IP, sondern über lokale Proxies. Dadurch ändern sich Quell-/Zielports und manchmal auch Ziele (z. B. localhost). Eine Policy, die „früher“ funktionierte, kann dadurch brechen.

Minimal sichere Policy-Designs, die Debugging erleichtern

Ein Teil des Debugging-Aufwands entsteht durch Policies, die zwar „sicher“ wirken, aber schwer zu verstehen sind. Folgende Praktiken erhöhen Transparenz und reduzieren Überraschungen:

Explizite DNS-Allow-Regel: Pro Namespace eine klare DNS-Egress-Regel (UDP/TCP 53) mit eindeutigen Selektoren.
Baseline-Policies: Eine bewusst benannte „default-deny“ Policy pro Namespace und getrennte Allow-Policies pro Dependency.
Label-Standards: Vereinheitlichen Sie Label-Keys und dokumentieren Sie sie; vermeiden Sie „kreative“ Team-Labels ohne Governance.
Ports konsolidieren: Health/Metrics nach Möglichkeit standardisieren oder klar als separate Policy behandeln.
Change Safety: Policies schrittweise ausrollen, zuerst beobachten, dann härten (z. B. audit/observe-Modi, wenn verfügbar).

Evidenz quantifizieren: Wann ist es „Policy“, wann ist es „Network Down“?

Um Diskussionen zu verkürzen, hilft eine klare Evidenz-Logik. Sie müssen nicht alles messen – aber ein paar harte Kriterien reichen oft.

Policy-verdächtig

Nur bestimmte Quell-/Zielkombinationen betroffen, reproduzierbar
Nur bestimmte Ports/Protokolle betroffen (z. B. UDP 53, TCP 443)
Deny-Counter/Flow-Logs zeigen Blockade oder Korrelation zu Policy-Änderung
Pod-IP direkt ist erreichbar von einigen Quellen, aber nicht von anderen

Underlay/Netzwerk-verdächtig

Breiter Ausfall über viele Namespaces/Services hinweg
Node- oder AZ-spezifische Paketdrops/Interface-Errors/Saturation
Retransmissions/Packet Loss korrelieren mit Last, nicht mit Selektoren
Provider-Status meldet Degradation oder es gibt klare Underlay-Indikatoren

Timeout-Ketten verstehen: Warum Policies Tail Latency und Retry Storms erzeugen

Ein unterschätzter Effekt: Policy-Drops wirken nicht nur wie „Down“, sie verschieben auch Latenzverteilungen. Statt schneller Fehler (z. B. 403/429) erzeugen Drops lange Timeouts. Das erhöht Tail Latency und kann Retry Storms auslösen, wenn Clients aggressiv neu versuchen.

Wenn ein Request n-mal retried wird, kann sich die Last auf das System vervielfachen. Vereinfacht:

L = R × (1+n)

Hier steht R für die ursprüngliche Request-Rate und n für die durchschnittliche Anzahl zusätzlicher Retries pro Request. Selbst kleine n-Werte können die tatsächliche Last stark erhöhen, was dann wie ein „Netzwerkproblem unter Last“ wirkt – obwohl die Root Cause ein Policy-Drop ist.

Playbook für den Incident: Kommunikationsfähige Aussagen statt Vermutungen

Der größte operative Gewinn entsteht, wenn Sie Ihre Diagnose in eine knappe, überprüfbare Aussage übersetzen. Das reduziert Eskalationsschleifen und beschleunigt Mitigation.

Statt: „Netzwerk ist down.“
Besser: „Timeouts sind selektiv: Nur Namespace A → Service B auf Port 5432. Pod-IP ist erreichbar von Namespace C. Policy-Deny-Counter steigt seit 10:42 nach Label-Change.“

Statt: „Policy sieht korrekt aus.“
Besser: „namespaceSelector matcht keine Labels, Allow-Regel greift nicht. Egress ist Default-Deny, daher DNS und DB-Calls blockiert.“

Outbound-Quellen, die im Debugging wirklich helfen

Kubernetes Network Policies (Semantik, Default-Deny, Selektoren)
Cilium Network Policy (eBPF-Policy, praktische Durchsetzung)
Hubble Observability (Flow-Evidenz inkl. Policy-Entscheidung)
Calico Kubernetes Policy (Policy-Implementierung und typische Fallstricke)

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.