Security Group „korrekt“, aber Traffic droppt: So verifizierst du es

Wenn eine Security Group „korrekt“ aussieht, aber der Traffic droppt, beginnt oft die frustrierendste Art von Netzwerkdebugging: Die Regeln wirken sauber, Ports sind freigegeben, Quellen stimmen – und trotzdem kommt keine Verbindung zustande oder sie bricht sporadisch ab. In Cloud-Umgebungen ist das ein typisches Muster, weil Security Groups (oder äquivalente Konstrukte wie Azure NSG und…

Latency Budgeting für Microservices

Latency Budgeting für Microservices ist eine der wirkungsvollsten Methoden, um Performance planbar zu machen und „Latenz-Überraschungen“ in verteilten Systemen zu vermeiden. In einer Microservices-Architektur entsteht die End-to-End-Latenz nicht an einer einzigen Stelle, sondern durch die Summe vieler kleiner Anteile: Netzwerk (DNS, TCP, TLS), Load Balancer, Service Mesh, Serialisierung, Authentifizierung, Datenbankzugriffe, Cache-Misses, externe APIs und interne…

Synthetic vs. RUM: Aus zwei Perspektiven messen

Synthetic vs. RUM ist eine der wichtigsten Unterscheidungen, wenn Sie Performance, Verfügbarkeit und Nutzererlebnis zuverlässig messen möchten. Denn dieselbe Anwendung kann in einem Laborszenario stabil und schnell wirken, während echte Nutzer in bestimmten Regionen, Geräten oder Netzwerken deutliche Probleme sehen – oder umgekehrt: RUM zeigt „durchschnittlich ok“, aber ein reproduzierbarer Fehler in einem kritischen Flow…

Readiness Review vor dem Launch: OSI-Checkliste fürs Platform-Team

Ein Readiness Review vor dem Launch ist für Plattform- und Infrastrukturteams die zuverlässigste Methode, um ungeplante Ausfälle, Eskalationen und „Überraschungs-Incidents“ rund um Go-Live zu vermeiden. Gerade bei neuen Produkten, größeren Releases oder Migrationen ist nicht die Feature-Liste das Risiko, sondern die Kombination aus Traffic, Abhängigkeiten, Timeouts, Observability-Lücken und unklaren Betriebsprozessen. Eine besonders praxistaugliche Struktur für…

„User Impact“ bei Network-Degradation messen

„User Impact“ bei Network-Degradation messen bedeutet, die Auswirkungen von Netzwerkproblemen konsequent aus Nutzersicht zu quantifizieren – nicht nur aus Infrastrukturperspektive. Denn ein Anstieg von Paketverlust, Retransmits oder TLS-Handshake-Fehlern ist erst dann wirklich relevant, wenn er spürbare Folgen hat: langsame Seiten, abgebrochene Checkouts, fehlgeschlagene Logins, Timeouts in kritischen APIs oder steigende Abbruchraten in mobilen Netzen. In…

SLOs für DNS/TLS/Ingress: Die oft vergessenen „Hidden Layers“

SLOs für DNS/TLS/Ingress gehören zu den meist unterschätzten Stellschrauben für Verfügbarkeit und Performance. Viele Teams definieren Service Level Objectives (SLOs) für ihre Anwendungen, APIs oder Datenbanken, übersehen aber die „Hidden Layers“ davor: Namensauflösung (DNS), Handshake und Verschlüsselung (TLS) sowie den Eintrittspunkt in die Plattform (Ingress, Load Balancer, API Gateway, Service Mesh Edge). Genau diese Schichten…

End-to-End-Latenz-SLOs festlegen: DNS→TCP→TLS→HTTP

Wer verlässliche digitale Dienste betreibt, kommt an Service Level Objectives (SLOs) nicht vorbei. Besonders wirkungsvoll sind dabei End-to-End-Latenz-SLOs: Sie beschreiben, wie schnell eine Anfrage aus Sicht der Nutzerin oder des Nutzers tatsächlich beantwortet wird – vom ersten DNS-Lookup über TCP- und TLS-Aufbau bis hin zur HTTP-Antwort. Genau hier scheitern viele Teams: Sie messen nur „Serverzeit“…

Intermittierende Incidents: So sammelst du Evidence

Intermittierende Incidents: So sammelst du Evidence – das ist eine der schwierigsten Disziplinen im Betrieb verteilter Systeme. Intermittierende Störungen treten nur sporadisch auf, verschwinden wieder, hinterlassen oft keine eindeutige Spur und erzeugen dennoch spürbaren Nutzerimpact: einzelne 502/504-Spitzen, kurze Latenzschübe im P99, sporadische Login-Fehler oder scheinbar zufällige Timeouts. Genau dadurch werden sie gefährlich: Sie entziehen sich…

Error Budget für Netzwerk-Dependencies: So berechnest du es

Ein Error Budget für Netzwerk-Dependencies ist eines der wirksamsten Werkzeuge, um Zuverlässigkeit und Veränderungsgeschwindigkeit in Einklang zu bringen. Während SLOs (Service Level Objectives) definieren, wie zuverlässig ein Dienst aus Nutzersicht sein soll, beschreibt das Error Budget, wie viel „Unzuverlässigkeit“ innerhalb eines Zeitfensters akzeptabel ist, ohne das SLO zu verletzen. Genau bei Netzwerk-Dependencies wird das Thema…

Wann an den Cloud Provider eskalieren?

„Wann an den Cloud Provider eskalieren?“ ist eine der entscheidenden Fragen im Incident Management moderner Plattformen. Einerseits wollen Sie keine Zeit verlieren, wenn ein providerseitiges Problem (z. B. in einer Region, einer Availability Zone oder einem Managed Service) Ihre Produktion beeinträchtigt. Andererseits kostet eine vorschnelle Eskalation Ressourcen, lenkt das Team ab und führt nicht selten…