MTR vs. Traceroute: Wann nutzt man welches Tool?

MTR vs. Traceroute: Wann nutzt man welches Tool? – diese Frage taucht in der Praxis immer dann auf, wenn ein Netzwerkpfad „irgendwo dazwischen“ Probleme macht: Latenzspitzen, Paketverlust, Timeouts oder sporadische Verbindungsabbrüche. In vielen Teams ist Traceroute das Standardwerkzeug, weil es schnell einen Pfad zeigt. Gleichzeitig liefert MTR (My Traceroute) oft deutlich bessere Hinweise, wenn das…

DNS-Telemetrie: Resolver-Latenz und Errors messen

DNS-Telemetrie: Resolver-Latenz und Errors messen ist in modernen Cloud- und Kubernetes-Umgebungen kein „Nice-to-have“, sondern eine Voraussetzung für stabile Applikationen. DNS ist ein Querschnittsdienst: Wenn Namensauflösung langsam wird oder sporadisch fehlschlägt, wirken Symptome schnell wie „Netzwerkproblem“, „Service ist down“ oder „Random Timeouts“ – obwohl die eigentliche Ursache im Resolver, im Cache-Verhalten oder in Upstream-Abhängigkeiten liegt. Besonders…

TLS-Telemetrie: Handshake-Zeit, Failure Rate und Cert-Metriken

TLS-Telemetrie: Handshake-Zeit, Failure Rate und Cert-Metriken ist ein zentraler Baustein, wenn Sie Verfügbarkeit und Performance moderner Plattformen zuverlässig betreiben möchten. In Microservice-Architekturen, Kubernetes-Clustern und Service-Mesh-Umgebungen wird ein großer Teil des Traffics über TLS oder mTLS abgesichert. Damit verschiebt sich ein Teil der „gefühlten“ Latenz und ein Teil der Ausfallursachen aus der Applikation in die Transport-…

Retransmissions messen ohne PCAP

Retransmissions messen ohne PCAP bedeutet, TCP-Wiederholungen (und verwandte Signale wie RTOs, DupACKs oder Lost Segments) zuverlässig zu quantifizieren, ohne Pakete mitzuschneiden und zu analysieren. Das ist in der Praxis häufig die bessere Wahl: Paketmitschnitte sind auf Produktionssystemen oft schwer genehmigungsfähig, erzeugen hohe Datenmengen, können sensible Payload enthalten und sind bei verteilten Systemen schwer zu korrelieren.…

High Cardinality in Observability: Labels sicher handhaben

High Cardinality in Observability: Labels sicher handhaben ist eines der wichtigsten Themen, wenn Monitoring, Tracing und Logging langfristig stabil, bezahlbar und im Incident nutzbar bleiben sollen. „High Cardinality“ bedeutet, dass ein Label (oder eine Kombination mehrerer Labels) sehr viele unterschiedliche Werte annehmen kann – etwa Request-IDs, User-IDs, vollständige URLs, dynamische Pfade, Container-IDs oder IP:Port-Kombinationen. Solche…

Policy Drift: Wenn Mesh-Konfiguration „still“ abweicht

Policy Drift: Wenn Mesh-Konfiguration „still“ abweicht, ist einer der unangenehmsten Fehlerklassen in modernen Plattformen. Gemeint ist nicht der offensichtliche Fehlgriff im YAML, der sofort einen Deployment-Fehler auslöst, sondern die schleichende Abweichung zwischen dem, was Teams glauben konfiguriert zu haben, und dem, was im Datenpfad tatsächlich wirkt. Gerade in Service-Mesh-Umgebungen ist das gefährlich, weil Policies oft…

Service-Mesh-Troubleshooting: Underlay vs. Sidecar vs. App

Service-Mesh-Troubleshooting: Underlay vs. Sidecar vs. App ist in der Praxis eine der wichtigsten Fähigkeiten, sobald ein Cluster ein Service Mesh wie Istio, Linkerd oder Consul Connect nutzt. Denn ab diesem Moment existieren mehrere „Netzwerkrealitäten“ gleichzeitig: das Underlay (CNI, Routing, Node-Netzwerk), die Sidecars (Proxy-Datapath, mTLS, Retry-/Timeout-Logik, Policy) und die Anwendung selbst (Clients, Connection Pools, DNS, TLS,…

Blue/Green Mesh Upgrade: Strategie mit minimalem Risiko

Ein Blue/Green Mesh Upgrade: Strategie mit minimalem Risiko ist für viele Plattformteams die sicherste Methode, ein Service Mesh zu aktualisieren, ohne dabei den laufenden Betrieb zu gefährden. Der Grund ist einfach: Ein Mesh-Upgrade betrifft nicht nur eine einzelne Komponente, sondern den gesamten Netzwerk- und Security-Datenpfad. Sidecars, Gateways, Control Plane, Zertifikatsausgabe, Telemetrie und Traffic-Policies greifen ineinander.…

mTLS-Handshake-Fail: Schnelldiagnose für SRE

Ein mTLS-Handshake-Fail: Schnelldiagnose für SRE gehört zu den häufigsten und gleichzeitig nervigsten Incidents in Service-Mesh- und Zero-Trust-Setups. Der Fehler tritt oft plötzlich auf: Requests gehen in Timeouts, gRPC bricht mit „UNAVAILABLE“ ab, HTTP liefert 503/525/502, und in Logs erscheinen kryptische TLS-Meldungen wie „handshake failure“, „certificate verify failed“ oder „no shared cipher“. Das Tückische: mTLS-Probleme wirken…

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen

Multi-Hop-Observability: Spans mit Network-Signalen verknüpfen ist der Unterschied zwischen „wir sehen, dass es langsam ist“ und „wir wissen, warum es langsam ist“. In verteilten Systemen bestehen Requests selten aus einem einzigen Hop. Stattdessen wandern sie durch Ingress, Service Mesh Sidecars, Gateways, mehrere Microservices, Datenbanken und manchmal über Cluster- oder Regionsgrenzen. Tracing zeigt dabei die zeitliche…