Header Propagation & Trace Context: Warum Tracing abbrechen kann

Header Propagation & Trace Context: Warum Tracing abbrechen kann – dieses Problem begegnet Teams oft genau dann, wenn Distributed Tracing eigentlich helfen soll: im Incident. In Dashboards sieht alles „okay“ aus, aber die Traces enden nach dem ersten Hop, Spans fehlen in der Mitte einer Request-Kette oder es entstehen mehrere getrennte Trace-Bäume, die nicht zusammenpassen.…

Circuit Breaking im Mesh: Praktisches Tuning

Circuit Breaking im Mesh: Praktisches Tuning ist eines der wirkungsvollsten Mittel, um Kaskadenfehler in Microservice-Architekturen zu verhindern. In einem Service Mesh laufen sehr viele Verbindungen und Requests nicht mehr direkt zwischen Anwendungen, sondern über Sidecars und Gateways. Das erleichtert Routing, mTLS, Telemetrie und Policy Enforcement – erhöht aber auch die Gefahr, dass ein einzelner überlasteter…

Envoy-Metriken: Welche sind im Incident am nützlichsten?

Envoy-Metriken sind im Incident häufig das schnellste Mittel, um zwischen Applikationsfehler, Netzwerkproblem, Überlast und Fehlkonfiguration zu unterscheiden. Das gilt besonders in Kubernetes- und Service-Mesh-Umgebungen, in denen Envoy als Sidecar oder Gateway praktisch jeden Request sieht – inklusive Retries, Timeouts, Resets, TLS-Handshakes und Load-Balancing-Entscheidungen. Während App-Logs im Ernstfall oft lückenhaft sind (Sampling, Log-Rate-Limits, fehlende Korrelation), liefern…

Fault Injection für Incident-Übungen

Fault Injection für Incident-Übungen ist eine praxisnahe Methode, um Teams, Systeme und Runbooks unter realistischen Störbedingungen zu testen – bevor ein echter Ausfall passiert. Statt theoretischer Tabletop-Übungen wird gezielt ein Fehler in eine kontrollierte Umgebung oder in einen klar abgegrenzten Produktionsbereich eingebracht, zum Beispiel zusätzliche Latenz, Paketverlust, ein Pod-Neustart, eine limitierte Datenbankverbindung oder ein fehlerhafter…

Rate Limiting im Mesh: Wann es effektiv ist

Rate Limiting im Mesh: Wann es effektiv ist – diese Frage stellt sich meist dann, wenn ein System entweder unter Last „weich“ degradiert oder abrupt kippt. In Service-Mesh-Architekturen (Sidecars, Gateways, mTLS, Observability) wirkt Rate Limiting auf den ersten Blick wie ein einfacher Hebel: „Wir begrenzen Requests pro Sekunde, dann bleibt alles stabil.“ In der Praxis…

Gateway vs. Ingress vs. API Gateway: Die richtigen Boundaries

Gateway vs. Ingress vs. API Gateway: Die richtigen Boundaries sind entscheidend, weil diese Komponenten nicht nur „Traffic weiterleiten“, sondern Sicherheits-, Governance- und Betriebsgrenzen definieren. In vielen Plattformen entstehen Probleme nicht durch fehlende Features, sondern durch falsche Zuständigkeiten: Ein Ingress wird plötzlich zum API-Management, ein API Gateway wird zum internen Service-Router, und ein „Gateway“ im Service…

gRPC im Mesh: Häufige Failure Modes

gRPC im Mesh: Häufige Failure Modes sind ein wiederkehrendes Thema, weil gRPC in modernen Plattformen zwei Dinge gleichzeitig tut: Es nutzt HTTP/2 als Transport und legt darüber ein eigenes, striktes Protokoll für Requests, Streams, Statuscodes und Deadlines. In einem Service Mesh kommen zusätzlich Sidecars, mTLS, Policy Enforcement, Retries, Load Balancing und Observability-Filter ins Spiel. Das…

HTTP/2-Verhalten: Head-of-Line und Debugging

HTTP/2-Verhalten ist in modernen Plattformen ein entscheidender Faktor für Performance und Fehlersuche – insbesondere dann, wenn viele Requests über wenige, langlebige Verbindungen laufen. Genau hier taucht ein Begriff immer wieder auf: Head-of-Line-Blocking. Viele verbinden Head-of-Line (HoL) ausschließlich mit HTTP/1.1, weil dort Requests in einer Verbindung oft nacheinander abgearbeitet werden mussten. HTTP/2 löst dieses Problem auf…

Service vs. Ingress: Der oft verwirrende Traffic-Pfad

Service vs. Ingress: Der oft verwirrende Traffic-Pfad ist eines der Themen, die in Kubernetes immer wieder für Missverständnisse sorgen – selbst in Teams mit viel Plattform-Erfahrung. Der Grund ist simpel: „Service“ und „Ingress“ lösen unterschiedliche Probleme auf unterschiedlichen Ebenen, sehen in YAML aber ähnlich „zugänglich“ aus. In der Praxis führt das zu typischen Fragen wie:…

Sicheres CNI-Upgrade: Pre-/Post-Checkliste

Ein sicheres CNI-Upgrade: Pre-/Post-Checkliste ist in Kubernetes-Umgebungen kein „Routine-Update“, sondern ein Change an einer der kritischsten Schichten: dem Datenpfad. Das Container Network Interface (CNI) bestimmt, wie Pods miteinander sprechen, wie Services geroutet werden, wie NetworkPolicies durchgesetzt werden, wie Egress funktioniert und wie observierbar das Verhalten im Incident ist. Wenn dabei etwas schiefgeht, sehen Sie nicht…