Egress Gateway designen für Outbound-Traffic-Kontrolle (K8s Pattern)

Ein Egress Gateway ist ein bewährtes Kubernetes-Pattern, um Outbound-Traffic kontrollierbar zu machen: Statt dass jeder Pod direkt ins Internet oder zu externen SaaS-APIs spricht, wird ausgehender Traffic gezielt über einen zentralen Kontrollpunkt geleitet. Damit lassen sich Allowlists, Authentifizierung, TLS-Inspection (falls zulässig), Protokollierung, DLP-Regeln, Rate Limits und konsistente Quell-IP-Adressen (Egress NAT) umsetzen. In der Praxis ist…

Conntrack Full auf Kubernetes-Nodes: Detection und dauerhafte Lösung

Ein „Conntrack Full auf Kubernetes-Nodes“-Vorfall gehört zu den tückischsten Fehlerbildern im Clusterbetrieb: Anwendungen wirken plötzlich instabil, Requests laufen in Timeouts, Services werden sporadisch unerreichbar – und doch zeigen CPU, RAM und Pod-Status zunächst keine eindeutigen Auffälligkeiten. Ursache ist häufig eine erschöpfte Connection-Tracking-Tabelle im Linux-Kernel (nf_conntrack). Diese Tabelle wird von netfilter/iptables (und teils auch von eBPF-/CNI-Pfaden)…

Was ist ein Service Mesh? Auswirkungen auf OSI-Layer und SRE-Betrieb

Ein Service Mesh ist eine Infrastruktur-Schicht für die Kommunikation zwischen Services (Service-to-Service) in verteilten Systemen – besonders in Microservices- und Kubernetes-Umgebungen. Statt dass jede Anwendung Authentifizierung, Verschlüsselung, Retries, Timeouts, Telemetrie und Traffic-Steuerung selbst implementiert, verlagert ein Service Mesh viele dieser Funktionen in eine standardisierte Datenebene („Data Plane“) und eine Steuerungsebene („Control Plane“). Für SRE-Teams ist…

MTU-Probleme im CNI: Warum große Requests scheitern (Checkliste + Tests)

Wenn in Kubernetes „kleine Requests funktionieren, große Requests scheitern“, sind MTU-Probleme im CNI eine der häufigsten und zugleich am schwersten zu erkennenden Ursachen. MTU steht für „Maximum Transmission Unit“ – also die maximale Paketgröße, die ein Netzwerkpfad ohne Fragmentierung transportieren kann. In Container-Umgebungen kommt zusätzlich Overhead durch Tunnel (VXLAN, Geneve), Verschlüsselung (IPsec/WireGuard), Encapsulation durch Cloud-Netzwerke,…

mTLS-Handshake-Failure im Service Mesh: Debugging Schritt für Schritt

Ein mTLS-Handshake-Failure im Service Mesh gehört zu den häufigsten Ursachen für plötzlich auftretende 503/504-Fehler, „upstream connect error“-Meldungen oder sporadische Verbindungsabbrüche zwischen Microservices. Besonders tückisch ist, dass ein Handshake-Problem oft wie ein klassisches Netzwerk- oder Applikationsproblem wirkt: DNS funktioniert, IP-Konnektivität scheint vorhanden, aber Requests brechen dennoch ab. Der Grund: mTLS (mutual TLS) fügt eine zusätzliche Sicherheits-…

MTU in Cloud-VPN/Tunneln: Ursache für „Small works, large fails“

MTU in Cloud-VPN/Tunneln ist eine der häufigsten Ursachen für das klassische Fehlerbild „Small works, large fails“: Kleine Pakete (z. B. Ping, kurze API-Requests, kleine DNS-Antworten) funktionieren, während größere Daten (Datei-Uploads, TLS-Handshakes mit vielen Extensions, große HTTP-Responses, Datenbankabfragen) sporadisch hängen bleiben, extrem langsam werden oder timeouten. In Cloud-Umgebungen ist dieses Problem besonders verbreitet, weil zusätzliche Encapsulation-Schichten…

Hybrid Cloud: VPN vs. Direct Connect/ExpressRoute – wann was wählen?

Hybrid-Cloud-Architekturen stehen und fallen mit der Anbindung zwischen On-Premises-Rechenzentrum und Public Cloud. Genau hier entsteht die zentrale Frage: Hybrid Cloud: VPN vs. Direct Connect/ExpressRoute – wann was wählen? Beide Optionen können technisch „funktionieren“, unterscheiden sich aber deutlich in Latenz, Durchsatz, Stabilität, Sicherheitsmodell, Betriebsaufwand und Kostenstruktur. Ein Site-to-Site-VPN über das Internet ist schnell verfügbar und flexibel,…

Multi-Region-Architektur: Auswirkungen auf Latenz, Kosten und Availability

Eine Multi-Region-Architektur ist für viele Organisationen der nächste logische Schritt, sobald ein System global genutzt wird oder strengere Anforderungen an Ausfallsicherheit erfüllt werden müssen. Gleichzeitig ist Multi-Region nicht nur „eine zweite Region hinzufügen“, sondern eine grundlegende Designentscheidung mit direkten Auswirkungen auf Nutzerlatenz, Infrastrukturkosten, Betriebsaufwand und tatsächliche Availability. Wer Multi-Region falsch plant, kann am Ende höhere…

IPv6 Dual-Stack in der Cloud: Nutzen, Risiken und Betrieb

IPv6 Dual-Stack in der Cloud bedeutet, dass Ihre Workloads und Services parallel über IPv4 und IPv6 erreichbar sind. Genau dieses Betriebsmodell ist für viele Organisationen der pragmatischste Weg, IPv6 einzuführen, ohne bestehende IPv4-Abhängigkeiten sofort abzuschalten. Der Nutzen ist klar: mehr Adressraum, weniger NAT-Komplexität, bessere End-to-End-Konnektivität und langfristige Zukunftssicherheit. Gleichzeitig entstehen neue Risiken und Betriebsaufgaben: zusätzliche…

Bandwidth-/Throughput-Limits in der Cloud: Warum nicht wie erwartet?

Bandwidth-/Throughput-Limits in der Cloud führen in der Praxis regelmäßig zu Überraschungen: Sie wählen eine größere VM-Instanz, sehen im Datenblatt „bis zu X Gbit/s“, starten einen Speedtest – und erreichen trotzdem nur einen Bruchteil davon. Oder ein Transfer läuft anfangs schnell und fällt dann ab. Oder innerhalb einer Region ist alles flott, aber über ein Load…