Fault Injection für Incident-Übungen

Fault Injection für Incident-Übungen ist eine praxisnahe Methode, um Teams, Systeme und Runbooks unter realistischen Störbedingungen zu testen – bevor ein echter Ausfall passiert. Statt theoretischer Tabletop-Übungen wird gezielt ein Fehler in eine kontrollierte Umgebung oder in einen klar abgegrenzten Produktionsbereich eingebracht, zum Beispiel zusätzliche Latenz, Paketverlust, ein Pod-Neustart, eine limitierte Datenbankverbindung oder ein fehlerhafter…

Rate Limiting im Mesh: Wann es effektiv ist

Rate Limiting im Mesh: Wann es effektiv ist – diese Frage stellt sich meist dann, wenn ein System entweder unter Last „weich“ degradiert oder abrupt kippt. In Service-Mesh-Architekturen (Sidecars, Gateways, mTLS, Observability) wirkt Rate Limiting auf den ersten Blick wie ein einfacher Hebel: „Wir begrenzen Requests pro Sekunde, dann bleibt alles stabil.“ In der Praxis…

Gateway vs. Ingress vs. API Gateway: Die richtigen Boundaries

Gateway vs. Ingress vs. API Gateway: Die richtigen Boundaries sind entscheidend, weil diese Komponenten nicht nur „Traffic weiterleiten“, sondern Sicherheits-, Governance- und Betriebsgrenzen definieren. In vielen Plattformen entstehen Probleme nicht durch fehlende Features, sondern durch falsche Zuständigkeiten: Ein Ingress wird plötzlich zum API-Management, ein API Gateway wird zum internen Service-Router, und ein „Gateway“ im Service…

gRPC im Mesh: Häufige Failure Modes

gRPC im Mesh: Häufige Failure Modes sind ein wiederkehrendes Thema, weil gRPC in modernen Plattformen zwei Dinge gleichzeitig tut: Es nutzt HTTP/2 als Transport und legt darüber ein eigenes, striktes Protokoll für Requests, Streams, Statuscodes und Deadlines. In einem Service Mesh kommen zusätzlich Sidecars, mTLS, Policy Enforcement, Retries, Load Balancing und Observability-Filter ins Spiel. Das…

HTTP/2-Verhalten: Head-of-Line und Debugging

HTTP/2-Verhalten ist in modernen Plattformen ein entscheidender Faktor für Performance und Fehlersuche – insbesondere dann, wenn viele Requests über wenige, langlebige Verbindungen laufen. Genau hier taucht ein Begriff immer wieder auf: Head-of-Line-Blocking. Viele verbinden Head-of-Line (HoL) ausschließlich mit HTTP/1.1, weil dort Requests in einer Verbindung oft nacheinander abgearbeitet werden mussten. HTTP/2 löst dieses Problem auf…

TLS-Offload vs. End-to-End: Auswirkungen aufs Mesh

TLS-Offload vs. End-to-End: Auswirkungen aufs Mesh sind ein zentrales Architekturthema, weil die Entscheidung nicht nur „Verschlüsselung ja/nein“ bedeutet, sondern Identität, Policy Enforcement, Observability und Betriebsmodelle verändert. In der Praxis begegnen Teams häufig widersprüchlichen Anforderungen: Security will durchgängige Verschlüsselung bis zum Workload, Plattformteams möchten Zertifikate zentral am Edge terminieren, und SREs brauchen eine Datenpfad-Logik, die bei…

kube-proxy, iptables und das Problem „Conntrack Full“

kube-proxy, iptables und das Problem „Conntrack Full“ gehören zu den häufigsten Ursachen für schwer erklärbare Netzwerkstörungen in Kubernetes-Clustern: Verbindungen schlagen plötzlich fehl, Services sind sporadisch nicht erreichbar, Requests hängen in Timeouts, und die Fehler treten scheinbar zufällig auf – oft nur unter Lastspitzen oder bei bestimmten Traffic-Mustern. Hinter dem Symptom „Conntrack Full“ steckt in vielen…

Runbook „Pod kann DNS nicht resolven“

Ein Runbook „Pod kann DNS nicht resolven“ ist in Kubernetes-Umgebungen eines der wertvollsten Standard-Runbooks überhaupt, weil DNS-Probleme extrem häufig auftreten, aber in sehr unterschiedlichen Formen. Ein Pod, der keine Namen auflösen kann, wirkt zunächst wie ein „Anwendungsfehler“: Requests laufen ins Timeout, Image Pulls scheitern, Healthchecks schlagen fehl, Service-to-Service-Kommunikation bricht sporadisch ab. In Wirklichkeit ist DNS…

Node-to-Node-Traffic: Diagnose, die oft in die falsche Richtung geht

Node-to-Node-Traffic: Diagnose, die oft in die falsche Richtung geht – genau dieses Muster sieht man in Kubernetes- und Cloud-Umgebungen immer wieder. Sobald Pods auf unterschiedlichen Nodes miteinander sprechen (oder ein Service-Request über mehrere Nodes läuft), entsteht Node-to-Node-Traffic. Wenn dann Timeouts, sporadische Paketverluste, ungewöhnliche Latenzspitzen oder „nur manchmal“ erreichbare Services auftreten, wird häufig reflexartig an der…

Kubernetes-DNS (CoreDNS): Outage-Pattern und Mitigation

Kubernetes-DNS (CoreDNS): Outage-Pattern und Mitigation ist ein Thema, das viele Cluster erst dann ernst nehmen, wenn „plötzlich alles kaputt“ wirkt – obwohl die eigentliche Ursache nur DNS ist. In Kubernetes hängt nahezu jede interne Kommunikation an Namensauflösung: Services, Headless Services, StatefulSets, Webhooks, Sidecars, Ingress-Backends und externe Abhängigkeiten. Wenn CoreDNS ausfällt oder nur noch langsam antwortet,…