High Cardinality in Observability: Labels sicher handhaben

High Cardinality in Observability: Labels sicher handhaben ist eines der wichtigsten Themen, wenn Monitoring, Tracing und Logging langfristig stabil, bezahlbar und im Incident nutzbar bleiben sollen. „High Cardinality“ bedeutet, dass ein Label (oder eine Kombination mehrerer Labels) sehr viele unterschiedliche Werte annehmen kann – etwa Request-IDs, User-IDs, vollständige URLs, dynamische Pfade, Container-IDs oder IP:Port-Kombinationen. Solche…

Policy Drift: Wenn Mesh-Konfiguration „still“ abweicht

Policy Drift: Wenn Mesh-Konfiguration „still“ abweicht, ist einer der unangenehmsten Fehlerklassen in modernen Plattformen. Gemeint ist nicht der offensichtliche Fehlgriff im YAML, der sofort einen Deployment-Fehler auslöst, sondern die schleichende Abweichung zwischen dem, was Teams glauben konfiguriert zu haben, und dem, was im Datenpfad tatsächlich wirkt. Gerade in Service-Mesh-Umgebungen ist das gefährlich, weil Policies oft…

Service-Mesh-Troubleshooting: Underlay vs. Sidecar vs. App

Service-Mesh-Troubleshooting: Underlay vs. Sidecar vs. App ist in der Praxis eine der wichtigsten Fähigkeiten, sobald ein Cluster ein Service Mesh wie Istio, Linkerd oder Consul Connect nutzt. Denn ab diesem Moment existieren mehrere „Netzwerkrealitäten“ gleichzeitig: das Underlay (CNI, Routing, Node-Netzwerk), die Sidecars (Proxy-Datapath, mTLS, Retry-/Timeout-Logik, Policy) und die Anwendung selbst (Clients, Connection Pools, DNS, TLS,…

Blue/Green Mesh Upgrade: Strategie mit minimalem Risiko

Ein Blue/Green Mesh Upgrade: Strategie mit minimalem Risiko ist für viele Plattformteams die sicherste Methode, ein Service Mesh zu aktualisieren, ohne dabei den laufenden Betrieb zu gefährden. Der Grund ist einfach: Ein Mesh-Upgrade betrifft nicht nur eine einzelne Komponente, sondern den gesamten Netzwerk- und Security-Datenpfad. Sidecars, Gateways, Control Plane, Zertifikatsausgabe, Telemetrie und Traffic-Policies greifen ineinander.…

mTLS-Handshake-Fail: Schnelldiagnose für SRE

Ein mTLS-Handshake-Fail: Schnelldiagnose für SRE gehört zu den häufigsten und gleichzeitig nervigsten Incidents in Service-Mesh- und Zero-Trust-Setups. Der Fehler tritt oft plötzlich auf: Requests gehen in Timeouts, gRPC bricht mit „UNAVAILABLE“ ab, HTTP liefert 503/525/502, und in Logs erscheinen kryptische TLS-Meldungen wie „handshake failure“, „certificate verify failed“ oder „no shared cipher“. Das Tückische: mTLS-Probleme wirken…

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen ist der Unterschied zwischen „wir sehen, dass es langsam ist“ und „wir wissen, warum es langsam ist“. In verteilten Systemen bestehen Requests selten aus einem einzigen Hop. Stattdessen wandern sie durch Ingress, Service Mesh Sidecars, Gateways, mehrere Microservices, Datenbanken und manchmal über Cluster- oder Regionsgrenzen. Tracing zeigt dabei die zeitliche…

Zusätzliche Latenz durch Sidecars: So misst du sie

Zusätzliche Latenz durch Sidecars: So misst du sie – dieser Satz beschreibt ein praktisches Problem, das in Service-Mesh-Umgebungen sehr häufig auftaucht. Sobald ein Sidecar (meist ein Proxy wie Envoy) in den Datenpfad eingeführt wird, entsteht ein zusätzlicher Hop: Requests laufen nicht mehr direkt von Client zu Server, sondern über den Proxy im Client-Pod und den…

Istio AuthorizationPolicy: Häufige Fehlkonfigurationen

Istio AuthorizationPolicy: Häufige Fehlkonfigurationen gehören zu den häufigsten Ursachen für „plötzliche“ 403-Fehler, unerwartet offene Zugriffe oder schwer erklärbare Ausnahmen in Service-Mesh-Umgebungen. Das liegt daran, dass AuthorizationPolicy nicht isoliert wirkt, sondern immer im Zusammenspiel mit mTLS, PeerAuthentication, RequestAuthentication (JWT), Gateway-Topologien, Sidecar-Injection und dem tatsächlichen Datenpfad bewertet wird. In der Praxis entstehen Fehler selten durch „ein falsches…

Mesh-Retry-Policy: Retry Storms vermeiden

Eine Mesh-Retry-Policy: Retry Storms vermeiden ist in Service-Mesh-Umgebungen kein „Nice-to-have“, sondern ein zentraler Stabilitätsfaktor. Retries wirken auf den ersten Blick wie eine einfache Zuverlässigkeitsfunktion: Wenn ein Request fehlschlägt, versucht man es eben erneut. In der Realität können Retries jedoch die eigentliche Störung massiv verschärfen. Aus einem kurzen, lokalen Problem (ein Pod startet neu, eine Zone…