OSI-Modell für SRE-Postmortems: RCA schreiben, ohne andere Teams zu beschuldigen

Das OSI-Modell für SRE-Postmortems ist ein wirkungsvolles Werkzeug, wenn Sie eine Root Cause Analysis (RCA) schreiben möchten, ohne andere Teams zu beschuldigen. Postmortems sollen nicht klären, „wer schuld ist“, sondern warum ein System unter realen Bedingungen versagt hat und wie sich das künftig verhindern lässt. In der Praxis scheitert diese Absicht jedoch häufig an unpräziser…

Baseline-Latenz zwischen AZ/Region messen: SRE-Best Practices

Die Baseline-Latenz zwischen AZ/Region messen ist eine der unterschätzten SRE-Grundlagen für stabile Systeme. Ohne verlässliche Baselines lassen sich Incidents kaum sauber triagieren: Ist die Latenz „normal hoch“, weil eine Region geografisch weit entfernt ist, oder „ungewöhnlich hoch“, weil ein Pfad degradiert? Steigt p99, weil die Anwendung langsam ist, oder weil Cross-AZ-Traffic plötzlich über ein überlastetes…

End-to-End-Latenz-Breakdown (DNS→TCP→TLS→HTTP): Mapping auf OSI

Ein sauberer End-to-End-Latenz-Breakdown (DNS→TCP→TLS→HTTP) ist einer der schnellsten Wege, Performance-Probleme in verteilten Systemen zu verstehen, zu erklären und nachhaltig zu beheben. Viele Teams beobachten zwar „hohe p95/p99-Latenz“, bleiben aber beim nächsten Schritt stecken: Wo entsteht die Verzögerung – bei der Namensauflösung, beim Verbindungsaufbau, beim TLS-Handshake oder erst in der HTTP-Anwendungsschicht? Genau hier hilft das OSI-Modell…

Multi-Region-Redundanz designen: Fault Domains und Trade-offs

Multi-Region-Redundanz designen ist eine der wirkungsvollsten, aber auch anspruchsvollsten Maßnahmen, um die Verfügbarkeit geschäftskritischer Systeme zu erhöhen. Während Multi-AZ-Setups in vielen Organisationen bereits Standard sind, adressiert Multi-Region-Redundanz eine andere Klasse von Risiken: großflächige Störungen, die eine ganze Region betreffen können – sei es durch Provider-Incidents, Control-Plane-Ausfälle, Netzwerkprobleme, Fehlkonfigurationen mit breitem Blast Radius oder externe Ereignisse.…

Aus Alerts Aktionen machen: OSI-basiertes Observability-Runbook

Ein OSI-basiertes Observability-Runbook macht aus Alerts konkrete Aktionen – und verhindert, dass On-Call-Teams im Ernstfall zwischen Dashboards, Logs und Vermutungen verloren gehen. In vielen Organisationen sind Alarme zwar zahlreich, aber nicht handlungsleitend: „Latenz hoch“, „Fehlerrate steigt“, „Packet Loss“, „Pod restarts“. Was fehlt, ist der nächste Schritt: Welche Prüfung ist jetzt die schnellste, um die Ursache…

OSI-Modell als „Shared Language“ für DevOps–NetOps–SecOps

Das OSI-Modell als „Shared Language“ für DevOps–NetOps–SecOps ist ein unterschätzter Hebel, um Konflikte zu reduzieren, Incident-Kommunikation zu beschleunigen und technische Entscheidungen nachvollziehbar zu machen. In vielen Organisationen sprechen DevOps, NetOps und SecOps zwar über dieselben Systeme – aber mit unterschiedlichen Begriffen, Prioritäten und mentalen Modellen. Für die Entwicklung ist „die API langsam“, für das Netzwerkteam…

Networking-SLOs für Anwendungen: Realistische Ziele pro Layer designen

Networking-SLOs für Anwendungen sind ein entscheidender Schritt, um Performance- und Verfügbarkeitsziele realistisch zu definieren – ohne das Netzwerk pauschal zum Sündenbock zu machen oder Anwendungen mit unerreichbaren Erwartungen zu überfrachten. In der Praxis scheitern viele SLO-Initiativen daran, dass „Latenz“ und „Erreichbarkeit“ nur auf Anwendungsebene betrachtet werden. Dabei entstehen Nutzererlebnisse entlang einer Kette aus Namensauflösung, Verbindungsaufbau,…

Incident-Taxonomie in PagerDuty/Jira mit OSI-Layern erstellen

Eine Incident-Taxonomie in PagerDuty/Jira mit OSI-Layern zu erstellen, ist eine der wirkungsvollsten Maßnahmen, um Incident-Management messbar zu verbessern: weniger Diskussionen über Zuständigkeiten, schnellere Triage, bessere Trends und deutlich wertvollere Postmortems. In vielen Teams werden Incidents in PagerDuty und Jira zwar dokumentiert, aber inkonsistent klassifiziert – mal nach Symptom („Latenz hoch“), mal nach betroffener Komponente („Datenbank“),…

Capacity Planning für App-Traffic: Bottlenecks auf OSI-Layer mappen

Capacity Planning für App-Traffic scheitert in vielen Teams nicht an fehlenden Daten, sondern an fehlender Struktur: Latenz steigt, Fehler nehmen zu, Nutzer klagen – und trotzdem bleibt unklar, ob die Ursache in CPU, Netzwerkpfad, TCP-Verbindungen, TLS-Handshakes, Proxys, Datenbanken oder der Anwendung selbst liegt. Wer Kapazität nur „oben“ als Requests pro Sekunde und „unten“ als CPU-Auslastung…

Blast Radius messen: Cloud-Fault-Domains aus OSI-Perspektive

Blast Radius messen ist in Cloud-Architekturen eine der wichtigsten Fähigkeiten, um Verfügbarkeit planbar zu machen: Sie wollen nicht nur wissen, dass etwas ausfallen kann, sondern wie weit sich ein Fehler ausbreitet und welche Nutzerpfade dadurch brechen. In der Praxis bleibt der Blast Radius jedoch oft vage („Region betroffen“, „Cluster down“, „Netzwerkproblem“), weil Teams unterschiedliche Fault-Domains…