CoreDNS down: Symptome, Root Cause und Fix (K8s DNS Guide)

Wenn CoreDNS down ist, wirkt Kubernetes plötzlich „kaputt“, obwohl Pods, Nodes und Deployments auf den ersten Blick gesund aussehen. Der Grund ist simpel: DNS ist eine Basisschicht, auf die fast jede Anwendung im Cluster angewiesen ist – von Service Discovery (myservice.myns.svc.cluster.local) über Container-Registries bis hin zu externen APIs. Fällt CoreDNS aus oder wird extrem langsam,…

Egress Gateway designen für Outbound-Traffic-Kontrolle (K8s Pattern)

Ein Egress Gateway ist ein bewährtes Kubernetes-Pattern, um Outbound-Traffic kontrollierbar zu machen: Statt dass jeder Pod direkt ins Internet oder zu externen SaaS-APIs spricht, wird ausgehender Traffic gezielt über einen zentralen Kontrollpunkt geleitet. Damit lassen sich Allowlists, Authentifizierung, TLS-Inspection (falls zulässig), Protokollierung, DLP-Regeln, Rate Limits und konsistente Quell-IP-Adressen (Egress NAT) umsetzen. In der Praxis ist…

Conntrack Full auf Kubernetes-Nodes: Detection und dauerhafte Lösung

Ein „Conntrack Full auf Kubernetes-Nodes“-Vorfall gehört zu den tückischsten Fehlerbildern im Clusterbetrieb: Anwendungen wirken plötzlich instabil, Requests laufen in Timeouts, Services werden sporadisch unerreichbar – und doch zeigen CPU, RAM und Pod-Status zunächst keine eindeutigen Auffälligkeiten. Ursache ist häufig eine erschöpfte Connection-Tracking-Tabelle im Linux-Kernel (nf_conntrack). Diese Tabelle wird von netfilter/iptables (und teils auch von eBPF-/CNI-Pfaden)…

Was ist ein Service Mesh? Auswirkungen auf OSI-Layer und SRE-Betrieb

Ein Service Mesh ist eine Infrastruktur-Schicht für die Kommunikation zwischen Services (Service-to-Service) in verteilten Systemen – besonders in Microservices- und Kubernetes-Umgebungen. Statt dass jede Anwendung Authentifizierung, Verschlüsselung, Retries, Timeouts, Telemetrie und Traffic-Steuerung selbst implementiert, verlagert ein Service Mesh viele dieser Funktionen in eine standardisierte Datenebene („Data Plane“) und eine Steuerungsebene („Control Plane“). Für SRE-Teams ist…

MTU-Probleme im CNI: Warum große Requests scheitern (Checkliste + Tests)

Wenn in Kubernetes „kleine Requests funktionieren, große Requests scheitern“, sind MTU-Probleme im CNI eine der häufigsten und zugleich am schwersten zu erkennenden Ursachen. MTU steht für „Maximum Transmission Unit“ – also die maximale Paketgröße, die ein Netzwerkpfad ohne Fragmentierung transportieren kann. In Container-Umgebungen kommt zusätzlich Overhead durch Tunnel (VXLAN, Geneve), Verschlüsselung (IPsec/WireGuard), Encapsulation durch Cloud-Netzwerke,…

mTLS-Handshake-Failure im Service Mesh: Debugging Schritt für Schritt

Ein mTLS-Handshake-Failure im Service Mesh gehört zu den häufigsten Ursachen für plötzlich auftretende 503/504-Fehler, „upstream connect error“-Meldungen oder sporadische Verbindungsabbrüche zwischen Microservices. Besonders tückisch ist, dass ein Handshake-Problem oft wie ein klassisches Netzwerk- oder Applikationsproblem wirkt: DNS funktioniert, IP-Konnektivität scheint vorhanden, aber Requests brechen dennoch ab. Der Grund: mTLS (mutual TLS) fügt eine zusätzliche Sicherheits-…

Ingress Controller 502/503/504: Debugging von L4 bis L7

Ein plötzlicher Anstieg von Ingress Controller 502/503/504-Fehlern ist in Kubernetes einer der häufigsten Gründe für akuten Incident-Druck: Nutzer sehen „Bad Gateway“, „Service Unavailable“ oder „Gateway Timeout“, während Pods scheinbar „Running“ sind und Deployments unverändert wirken. Genau darin liegt die Schwierigkeit: Diese Statuscodes entstehen nicht an einer einzigen Stelle, sondern sind das Ergebnis einer Kette aus…

Warum Service Mesh Latenz erhöht: Messen, verstehen, reduzieren

Warum Service Mesh Latenz erhöht, ist eine der wichtigsten Fragen, sobald Teams von „einfacher“ Kubernetes-Kommunikation auf ein Mesh mit Sidecars oder Ambient-Mode umsteigen. Die Erwartungen sind oft klar: mehr Security (mTLS), bessere Observability (Tracing, Metrics), feinere Policies (AuthZ, Traffic Shaping). In der Realität kommt jedoch häufig eine spürbare Zusatzlatenz hinzu – manchmal nur wenige Millisekunden…

Hybrid Cloud: VPN vs. Direct Connect/ExpressRoute – wann was wählen?

Hybrid-Cloud-Architekturen stehen und fallen mit der Anbindung zwischen On-Premises-Rechenzentrum und Public Cloud. Genau hier entsteht die zentrale Frage: Hybrid Cloud: VPN vs. Direct Connect/ExpressRoute – wann was wählen? Beide Optionen können technisch „funktionieren“, unterscheiden sich aber deutlich in Latenz, Durchsatz, Stabilität, Sicherheitsmodell, Betriebsaufwand und Kostenstruktur. Ein Site-to-Site-VPN über das Internet ist schnell verfügbar und flexibel,…

Multi-Region-Architektur: Auswirkungen auf Latenz, Kosten und Availability

Eine Multi-Region-Architektur ist für viele Organisationen der nächste logische Schritt, sobald ein System global genutzt wird oder strengere Anforderungen an Ausfallsicherheit erfüllt werden müssen. Gleichzeitig ist Multi-Region nicht nur „eine zweite Region hinzufügen“, sondern eine grundlegende Designentscheidung mit direkten Auswirkungen auf Nutzerlatenz, Infrastrukturkosten, Betriebsaufwand und tatsächliche Availability. Wer Multi-Region falsch plant, kann am Ende höhere…