Service-Mesh-Troubleshooting: Underlay vs. Sidecar vs. App

Service-Mesh-Troubleshooting: Underlay vs. Sidecar vs. App ist in der Praxis eine der wichtigsten Fähigkeiten, sobald ein Cluster ein Service Mesh wie Istio, Linkerd oder Consul Connect nutzt. Denn ab diesem Moment existieren mehrere „Netzwerkrealitäten“ gleichzeitig: das Underlay (CNI, Routing, Node-Netzwerk), die Sidecars (Proxy-Datapath, mTLS, Retry-/Timeout-Logik, Policy) und die Anwendung selbst (Clients, Connection Pools, DNS, TLS,…

Blue/Green Mesh Upgrade: Strategie mit minimalem Risiko

Ein Blue/Green Mesh Upgrade: Strategie mit minimalem Risiko ist für viele Plattformteams die sicherste Methode, ein Service Mesh zu aktualisieren, ohne dabei den laufenden Betrieb zu gefährden. Der Grund ist einfach: Ein Mesh-Upgrade betrifft nicht nur eine einzelne Komponente, sondern den gesamten Netzwerk- und Security-Datenpfad. Sidecars, Gateways, Control Plane, Zertifikatsausgabe, Telemetrie und Traffic-Policies greifen ineinander.…

mTLS-Handshake-Fail: Schnelldiagnose für SRE

Ein mTLS-Handshake-Fail: Schnelldiagnose für SRE gehört zu den häufigsten und gleichzeitig nervigsten Incidents in Service-Mesh- und Zero-Trust-Setups. Der Fehler tritt oft plötzlich auf: Requests gehen in Timeouts, gRPC bricht mit „UNAVAILABLE“ ab, HTTP liefert 503/525/502, und in Logs erscheinen kryptische TLS-Meldungen wie „handshake failure“, „certificate verify failed“ oder „no shared cipher“. Das Tückische: mTLS-Probleme wirken…

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen ist der Unterschied zwischen „wir sehen, dass es langsam ist“ und „wir wissen, warum es langsam ist“. In verteilten Systemen bestehen Requests selten aus einem einzigen Hop. Stattdessen wandern sie durch Ingress, Service Mesh Sidecars, Gateways, mehrere Microservices, Datenbanken und manchmal über Cluster- oder Regionsgrenzen. Tracing zeigt dabei die zeitliche…

Zusätzliche Latenz durch Sidecars: So misst du sie

Zusätzliche Latenz durch Sidecars: So misst du sie – dieser Satz beschreibt ein praktisches Problem, das in Service-Mesh-Umgebungen sehr häufig auftaucht. Sobald ein Sidecar (meist ein Proxy wie Envoy) in den Datenpfad eingeführt wird, entsteht ein zusätzlicher Hop: Requests laufen nicht mehr direkt von Client zu Server, sondern über den Proxy im Client-Pod und den…

Istio AuthorizationPolicy: Häufige Fehlkonfigurationen

Istio AuthorizationPolicy: Häufige Fehlkonfigurationen gehören zu den häufigsten Ursachen für „plötzliche“ 403-Fehler, unerwartet offene Zugriffe oder schwer erklärbare Ausnahmen in Service-Mesh-Umgebungen. Das liegt daran, dass AuthorizationPolicy nicht isoliert wirkt, sondern immer im Zusammenspiel mit mTLS, PeerAuthentication, RequestAuthentication (JWT), Gateway-Topologien, Sidecar-Injection und dem tatsächlichen Datenpfad bewertet wird. In der Praxis entstehen Fehler selten durch „ein falsches…

Mesh-Retry-Policy: Retry Storms vermeiden

Eine Mesh-Retry-Policy: Retry Storms vermeiden ist in Service-Mesh-Umgebungen kein „Nice-to-have“, sondern ein zentraler Stabilitätsfaktor. Retries wirken auf den ersten Blick wie eine einfache Zuverlässigkeitsfunktion: Wenn ein Request fehlschlägt, versucht man es eben erneut. In der Realität können Retries jedoch die eigentliche Störung massiv verschärfen. Aus einem kurzen, lokalen Problem (ein Pod startet neu, eine Zone…

Timeout-Alignment: App ↔ Proxy ↔ LB

Timeout-Alignment: App ↔ Proxy ↔ LB ist eines der am meisten unterschätzten Themen in modernen Plattformen – und gleichzeitig eine der häufigsten Ursachen für schwer zu interpretierende Fehlerbilder. In Kubernetes, Microservices und Service-Mesh-Setups existieren fast immer mehrere Timeouts gleichzeitig: in der Anwendung (Client-Timeout, Server-Timeout, Datenbank-Timeout), im Sidecar-Proxy oder Gateway (Request-Timeout, Idle-Timeout, Connect-Timeout, Outlier-Timeouts) und im…

Traffic Shifting: Sicheres Canary mit Observability

Traffic Shifting: Sicheres Canary mit Observability ist eine der wirksamsten Methoden, um Releases in Kubernetes- und Microservice-Umgebungen kontrolliert auszurollen, ohne sofort das gesamte Nutzeraufkommen auf eine neue Version zu lenken. Statt „Big Bang“-Deployments wird der Traffic schrittweise verschoben: zuerst wenige Prozent auf den Canary, dann mehr – und nur dann, wenn messbare Signale stabil bleiben.…