sdn - bintorosoft.com

Mesh-Retry-Policy: Retry Storms vermeiden

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Eine Mesh-Retry-Policy: Retry Storms vermeiden ist in Service-Mesh-Umgebungen kein „Nice-to-have“, sondern ein zentraler Stabilitätsfaktor. Retries wirken auf den ersten Blick wie eine einfache Zuverlässigkeitsfunktion: Wenn ein Request fehlschlägt, versucht man es eben erneut. In der Realität können Retries jedoch die eigentliche Störung massiv verschärfen. Aus einem kurzen, lokalen Problem (ein Pod startet neu, eine Zone…

Runbook „503 vom Sidecar“

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Ein Runbook „503 vom Sidecar“ ist in Service-Mesh-Umgebungen (z. B. Istio/Envoy) besonders wichtig, weil ein HTTP 503 hier oft nicht bedeutet, dass die Applikation selbst „down“ ist. Häufig kommt die Antwort direkt aus dem Sidecar-Proxy, weil er den Upstream nicht erreichen kann, keine gesunden Endpoints sieht, eine Verbindung nicht aufbauen kann oder der Datenpfad durch…

Timeout-Alignment: App ↔ Proxy ↔ LB

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Timeout-Alignment: App ↔ Proxy ↔ LB ist eines der am meisten unterschätzten Themen in modernen Plattformen – und gleichzeitig eine der häufigsten Ursachen für schwer zu interpretierende Fehlerbilder. In Kubernetes, Microservices und Service-Mesh-Setups existieren fast immer mehrere Timeouts gleichzeitig: in der Anwendung (Client-Timeout, Server-Timeout, Datenbank-Timeout), im Sidecar-Proxy oder Gateway (Request-Timeout, Idle-Timeout, Connect-Timeout, Outlier-Timeouts) und im…

Traffic Shifting: Sicheres Canary mit Observability

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Traffic Shifting: Sicheres Canary mit Observability ist eine der wirksamsten Methoden, um Releases in Kubernetes- und Microservice-Umgebungen kontrolliert auszurollen, ohne sofort das gesamte Nutzeraufkommen auf eine neue Version zu lenken. Statt „Big Bang“-Deployments wird der Traffic schrittweise verschoben: zuerst wenige Prozent auf den Canary, dann mehr – und nur dann, wenn messbare Signale stabil bleiben.…

Header Propagation & Trace Context: Warum Tracing abbrechen kann

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Header Propagation & Trace Context: Warum Tracing abbrechen kann – dieses Problem begegnet Teams oft genau dann, wenn Distributed Tracing eigentlich helfen soll: im Incident. In Dashboards sieht alles „okay“ aus, aber die Traces enden nach dem ersten Hop, Spans fehlen in der Mitte einer Request-Kette oder es entstehen mehrere getrennte Trace-Bäume, die nicht zusammenpassen.…

Load-Balancer-Service: L4-Verhalten und Idle Timeout

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Load-Balancer-Service: L4-Verhalten und Idle Timeout ist eines der Themen, die in Kubernetes erstaunlich oft zu „komischen“ Produktionsfehlern führen: Verbindungen brechen nach exakt ähnlichen Zeiträumen ab, WebSockets oder gRPC-Streams werden still getrennt, Datenbank-Sessions wirken instabil, oder Long-Polling endet plötzlich mit Timeouts – obwohl CPU, Memory und Pod-Logs zunächst unauffällig sind. Der Grund ist meist nicht der…

BGP-CNI (Calico etc.): Häufige Failure Modes

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

BGP-CNI (Calico etc.): Häufige Failure Modes ist ein Thema, das in Kubernetes-Umgebungen oft erst dann Aufmerksamkeit bekommt, wenn „plötzlich“ Pod-to-Pod-Verbindungen abbrechen, einzelne Nodes isoliert wirken oder externe Systeme nur noch sporadisch Pod-Netze erreichen. Der Grund: Ein BGP-basiertes CNI ersetzt klassische Overlay-Mechanismen (oder ergänzt sie) durch dynamisches Routing. Statt Pakete über VXLAN/IP-in-IP zu kapseln, werden Pod-…

Multi-Cluster-Networking: Latenz und Failure Domains

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Multi-Cluster-Networking: Latenz und Failure Domains ist in modernen Plattformen kein „Nice-to-have“, sondern eine Architekturentscheidung mit direkten Auswirkungen auf Verfügbarkeit, Kosten und Entwicklerproduktivität. Sobald Workloads nicht mehr in einem einzelnen Kubernetes-Cluster leben, ändern sich die Regeln: Service-zu-Service-Kommunikation passiert über längere Strecken, oft über Gateways, Firewalls, NAT, Peering-Links oder SD-WAN. Damit steigt nicht nur die Latenz, sondern…

CNI-Observability: Pflicht-Metriken

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

CNI-Observability: Pflicht-Metriken ist in Kubernetes-Umgebungen der Unterschied zwischen „wir raten“ und „wir wissen“, warum Netzwerkprobleme auftreten. Viele Incidents wirken zunächst wie Applikationsfehler: Timeouts, sporadische Retries, DNS-Flakiness, unerklärliche 5xx oder stark schwankende Latenzen. In Wirklichkeit entstehen sie häufig in der Netzwerkschicht: Drops durch Policy, MTU-Mismatch, überfüllte Conntrack-Tabellen, überlastete CNI-Daemons, Node-spezifische Routing-Probleme oder ein CNI-Datapath, der unter…

Network-Performance-Tests: iperf vs. realer Workload

Computernetzwerk, NetzwerkgrundlagenBy Red Snapper February 20, 2026 Leave a comment

Network-Performance-Tests: iperf vs. realer Workload ist ein Klassiker in Infrastruktur- und Kubernetes-Teams, weil beide Seiten im Alltag berechtigte Argumente haben – und trotzdem regelmäßig aneinander vorbeireden. Auf der einen Seite liefert iperf (bzw. iperf3) schnell Zahlen: Durchsatz, Jitter, Packet Loss, Parallelströme. Auf der anderen Seite kommt dann der Einwand: „Unsere Anwendung erreicht davon in Produktion…

Book a Phone Consultation!

Your Cart