Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen ist der Unterschied zwischen „wir sehen, dass es langsam ist“ und „wir wissen, warum es langsam ist“. In verteilten Systemen bestehen Requests selten aus einem einzigen Hop. Stattdessen wandern sie durch Ingress, Service Mesh Sidecars, Gateways, mehrere Microservices, Datenbanken und manchmal über Cluster- oder Regionsgrenzen. Tracing zeigt dabei die zeitliche…

Zusätzliche Latenz durch Sidecars: So misst du sie

Zusätzliche Latenz durch Sidecars: So misst du sie – dieser Satz beschreibt ein praktisches Problem, das in Service-Mesh-Umgebungen sehr häufig auftaucht. Sobald ein Sidecar (meist ein Proxy wie Envoy) in den Datenpfad eingeführt wird, entsteht ein zusätzlicher Hop: Requests laufen nicht mehr direkt von Client zu Server, sondern über den Proxy im Client-Pod und den…

Istio AuthorizationPolicy: Häufige Fehlkonfigurationen

Istio AuthorizationPolicy: Häufige Fehlkonfigurationen gehören zu den häufigsten Ursachen für „plötzliche“ 403-Fehler, unerwartet offene Zugriffe oder schwer erklärbare Ausnahmen in Service-Mesh-Umgebungen. Das liegt daran, dass AuthorizationPolicy nicht isoliert wirkt, sondern immer im Zusammenspiel mit mTLS, PeerAuthentication, RequestAuthentication (JWT), Gateway-Topologien, Sidecar-Injection und dem tatsächlichen Datenpfad bewertet wird. In der Praxis entstehen Fehler selten durch „ein falsches…

Mesh-Retry-Policy: Retry Storms vermeiden

Eine Mesh-Retry-Policy: Retry Storms vermeiden ist in Service-Mesh-Umgebungen kein „Nice-to-have“, sondern ein zentraler Stabilitätsfaktor. Retries wirken auf den ersten Blick wie eine einfache Zuverlässigkeitsfunktion: Wenn ein Request fehlschlägt, versucht man es eben erneut. In der Realität können Retries jedoch die eigentliche Störung massiv verschärfen. Aus einem kurzen, lokalen Problem (ein Pod startet neu, eine Zone…

Timeout-Alignment: App ↔ Proxy ↔ LB

Timeout-Alignment: App ↔ Proxy ↔ LB ist eines der am meisten unterschätzten Themen in modernen Plattformen – und gleichzeitig eine der häufigsten Ursachen für schwer zu interpretierende Fehlerbilder. In Kubernetes, Microservices und Service-Mesh-Setups existieren fast immer mehrere Timeouts gleichzeitig: in der Anwendung (Client-Timeout, Server-Timeout, Datenbank-Timeout), im Sidecar-Proxy oder Gateway (Request-Timeout, Idle-Timeout, Connect-Timeout, Outlier-Timeouts) und im…

Traffic Shifting: Sicheres Canary mit Observability

Traffic Shifting: Sicheres Canary mit Observability ist eine der wirksamsten Methoden, um Releases in Kubernetes- und Microservice-Umgebungen kontrolliert auszurollen, ohne sofort das gesamte Nutzeraufkommen auf eine neue Version zu lenken. Statt „Big Bang“-Deployments wird der Traffic schrittweise verschoben: zuerst wenige Prozent auf den Canary, dann mehr – und nur dann, wenn messbare Signale stabil bleiben.…

Header Propagation & Trace Context: Warum Tracing abbrechen kann

Header Propagation & Trace Context: Warum Tracing abbrechen kann – dieses Problem begegnet Teams oft genau dann, wenn Distributed Tracing eigentlich helfen soll: im Incident. In Dashboards sieht alles „okay“ aus, aber die Traces enden nach dem ersten Hop, Spans fehlen in der Mitte einer Request-Kette oder es entstehen mehrere getrennte Trace-Bäume, die nicht zusammenpassen.…

Load-Balancer-Service: L4-Verhalten und Idle Timeout

Load-Balancer-Service: L4-Verhalten und Idle Timeout ist eines der Themen, die in Kubernetes erstaunlich oft zu „komischen“ Produktionsfehlern führen: Verbindungen brechen nach exakt ähnlichen Zeiträumen ab, WebSockets oder gRPC-Streams werden still getrennt, Datenbank-Sessions wirken instabil, oder Long-Polling endet plötzlich mit Timeouts – obwohl CPU, Memory und Pod-Logs zunächst unauffällig sind. Der Grund ist meist nicht der…

BGP-CNI (Calico etc.): Häufige Failure Modes

BGP-CNI (Calico etc.): Häufige Failure Modes ist ein Thema, das in Kubernetes-Umgebungen oft erst dann Aufmerksamkeit bekommt, wenn „plötzlich“ Pod-to-Pod-Verbindungen abbrechen, einzelne Nodes isoliert wirken oder externe Systeme nur noch sporadisch Pod-Netze erreichen. Der Grund: Ein BGP-basiertes CNI ersetzt klassische Overlay-Mechanismen (oder ergänzt sie) durch dynamisches Routing. Statt Pakete über VXLAN/IP-in-IP zu kapseln, werden Pod-…