Intermittierende Incidents: So sammelst du Evidence

Intermittierende Incidents: So sammelst du Evidence – das ist eine der schwierigsten Disziplinen im Betrieb verteilter Systeme. Intermittierende Störungen treten nur sporadisch auf, verschwinden wieder, hinterlassen oft keine eindeutige Spur und erzeugen dennoch spürbaren Nutzerimpact: einzelne 502/504-Spitzen, kurze Latenzschübe im P99, sporadische Login-Fehler oder scheinbar zufällige Timeouts. Genau dadurch werden sie gefährlich: Sie entziehen sich…

Error Budget für Netzwerk-Dependencies: So berechnest du es

Ein Error Budget für Netzwerk-Dependencies ist eines der wirksamsten Werkzeuge, um Zuverlässigkeit und Veränderungsgeschwindigkeit in Einklang zu bringen. Während SLOs (Service Level Objectives) definieren, wie zuverlässig ein Dienst aus Nutzersicht sein soll, beschreibt das Error Budget, wie viel „Unzuverlässigkeit“ innerhalb eines Zeitfensters akzeptabel ist, ohne das SLO zu verletzen. Genau bei Netzwerk-Dependencies wird das Thema…

Wann an den Cloud Provider eskalieren?

„Wann an den Cloud Provider eskalieren?“ ist eine der entscheidenden Fragen im Incident Management moderner Plattformen. Einerseits wollen Sie keine Zeit verlieren, wenn ein providerseitiges Problem (z. B. in einer Region, einer Availability Zone oder einem Managed Service) Ihre Produktion beeinträchtigt. Andererseits kostet eine vorschnelle Eskalation Ressourcen, lenkt das Team ab und führt nicht selten…

Tail Latency: Warum P95/P99 wichtiger sind als der Durchschnitt

Tail Latency ist einer der wichtigsten, aber am häufigsten unterschätzten Faktoren für die wahrgenommene Performance digitaler Dienste. Viele Teams schauen zuerst auf den Durchschnitt (Mean) oder den Median (P50) und sind überrascht, wenn Nutzerinnen und Nutzer dennoch über „langsame“ Seiten, zähe API-Antworten oder ruckelige Apps klagen. Der Grund: Ein kleiner Anteil sehr langsamer Requests –…

Jitter messen für Echtzeit-Anwendungen

Jitter messen für Echtzeit-Anwendungen ist entscheidend, weil bei Voice, Video, Live-Streaming, Remote-Desktop, Gaming oder industrieller Telemetrie nicht nur die durchschnittliche Latenz zählt, sondern vor allem die Schwankung der Paketlaufzeit. Selbst wenn die mittlere Verzögerung akzeptabel wirkt, kann stark variierender Delay dazu führen, dass Audio „knistert“, Video ruckelt, Frames droppen oder Interaktionen unpräzise werden. In Echtzeit-Systemen…

DNS in PCAP diagnostizieren: Cache vs. Resolver vs. Authoritative

Bei Störungen im Betrieb ist DNS oft der erste unsichtbare Engpass: Anwendungen melden „Timeout“, Webseiten laden nur teilweise, APIs liefern sporadisch Fehler oder Verbindungen scheitern scheinbar zufällig. Genau hier wird das Thema DNS in PCAP diagnostizieren: Cache vs. Resolver vs. Authoritative zum entscheidenden Werkzeug für NOC, SRE und Netzwerkbetrieb. Wer in Paketmitschnitten sauber trennt, ob…

Retransmission-Spike erkennen – und die Auswirkungen verstehen

Ein plötzlicher Leistungsabfall in produktiven Netzwerken wirkt auf den ersten Blick oft wie ein Serverproblem, eine fehlerhafte Applikation oder ein überlasteter Internetzugang. In vielen Fällen liegt die eigentliche Ursache jedoch tiefer im Datenpfad: Ein Retransmission-Spike erkennen – und die Auswirkungen verstehen ist deshalb eine Kernkompetenz für NOC, Betrieb, SRE und Netzwerkteams. Retransmissions sind grundsätzlich kein…

Synthetic Monitoring ohne False Alarms: Best Practices

Synthetic Monitoring ohne False Alarms: Best Practices ist für moderne IT- und Netzbetriebsmodelle kein Nice-to-have mehr, sondern ein zentraler Baustein für stabile Services und effiziente Incident-Prozesse. Sobald digitale Produkte geschäftskritisch werden, reicht es nicht aus, nur auf echte Nutzerbeschwerden oder rein reaktives Infrastruktur-Monitoring zu warten. Synthetic Monitoring ermöglicht es, definierte User Journeys, API-Transaktionen und Erreichbarkeit…

Täuschende Health Checks: Wann „UP“ obwohl down

Das Thema Täuschende Health Checks: Wann „UP“ obwohl down betrifft heute nahezu jede produktive IT-Landschaft – von klassischen Webanwendungen über Microservices bis zu hybriden Plattformen mit Load Balancern, Queues und externen Abhängigkeiten. In vielen Umgebungen gilt ein Service als „gesund“, sobald ein Endpoint mit HTTP 200 antwortet oder ein TCP-Port offen ist. Genau darin liegt…

Korrelation: Interface Errors + BGP Flap + Loss Spike

Die Analyse Korrelation: Interface Errors + BGP Flap + Loss Spike ist im NOC-Alltag einer der wertvollsten Hebel, um aus verstreuten Einzelalarmen eine belastbare Ursache abzuleiten. Genau hier scheitern viele Teams: Interface-Fehler werden isoliert als physisches Problem betrachtet, BGP-Flaps als Routing-Instabilität behandelt und Loss-Spikes als „irgendwo im Netz“ eingeordnet. In der Realität treten diese Signale…