Layer 3 in der Cloud: Routing, CIDR und die teuersten Designfehler

Layer 3 in der Cloud ist die unsichtbare Infrastruktur, auf der fast alles aufbaut: Routing-Entscheidungen, CIDR-Planung, Transit-Topologien, Egress-Strategien, Private Connectivity und die Frage, wie Services über Zonen, Regionen und Accounts hinweg miteinander sprechen. Viele Cloud-Probleme, die später als „mysteriöse Timeouts“ oder „sporadische Drops“ erscheinen, sind in Wahrheit Layer-3-Designfehler: falsche Adressräume, schlecht geplante Route-Tabellen, unklare Ownership…

Provider-Status + Telemetrie nutzen, um Underlay-Störungen zu validieren

Provider-Status + Telemetrie nutzen, um Underlay-Störungen zu validieren ist in Cloud-Umgebungen eine der wirksamsten Methoden, um in Incidents schnell von Vermutungen zu belastbaren Aussagen zu kommen. Unterlay-Störungen – also Probleme in der physischen oder providerinternen Netzwerk- und Infrastruktur-Ebene – sind für Kundenteams selten direkt sichtbar. Sie äußern sich meist indirekt: erhöhte Tail Latency (p95/p99), sporadische…

OSI-Modell für SRE: Framework zur Problem-Isolation vom „Symptom“ zur Root Cause

Das OSI-Modell für SRE ist ein überraschend wirkungsvolles Denkwerkzeug, wenn Systeme ausgerechnet dann ausfallen, wenn man am wenigsten Zeit für Rätselraten hat. Site Reliability Engineering (SRE) lebt von schnellen, reproduzierbaren Diagnosen: Was ist gerade kaputt, wo liegt die Ursache, und wie verhindern wir die Wiederholung? Genau hier hilft das OSI-Modell – nicht als Lehrbuchstoff aus…

Cross-Zone-Traffic: Warum Kosten steigen und Latenz gleich mit

Cross-Zone-Traffic klingt nach einem Detail im Netzwerkdesign, ist in der Praxis aber ein verlässlicher Treiber für zwei Dinge, die niemand gerne steigen sieht: Cloud-Kosten und Latenz. Sobald Workloads über Availability-Zone-Grenzen hinweg kommunizieren, entstehen häufig zusätzliche Datenübertragungsgebühren, und die End-to-End-Response-Zeit wird variabler – insbesondere im Tail (p95/p99). Das ist kein Widerspruch zu „Multi-AZ ist gut“: Hochverfügbarkeit…

OSI-basiertes Incident Triage: Entscheiden, ob es Network oder App ist

OSI-basiertes Incident Triage ist eine pragmatische Methode, um in Störungen schnell die wichtigste Frage zu beantworten: Ist es ein Netzwerkproblem oder ein App-Problem? In der Realität fühlt sich beides oft gleich an – Nutzer sehen Timeouts, 5xx-Fehler oder extrem hohe Latenzen. Unter Druck entstehen dann typische Fehlmuster: Teams springen zwischen Dashboards, suchen „irgendwo“ nach Auffälligkeiten,…

„Noisy Neighbor“ in Cloud-Infrastruktur: Telemetrie-Signale erkennen

„Noisy Neighbor“ ist einer der häufigsten Gründe, warum Cloud-Workloads plötzlich schwanken, obwohl weder Code noch Konfiguration verändert wurden. Gemeint ist die Beeinflussung durch andere Workloads, die sich Ressourcen mit Ihnen teilen – etwa CPU-Zeit, Netzwerk-Fabric, Storage-Backends, Host-NICs oder I/O-Pfade. In Multi-Tenant-Umgebungen ist das normal: Provider optimieren Auslastung, und Plattformteams konsolidieren Workloads auf gemeinsamen Nodes. Das…

OSI-Modell für SRE-Postmortems: RCA schreiben, ohne andere Teams zu beschuldigen

Das OSI-Modell für SRE-Postmortems ist ein wirkungsvolles Werkzeug, wenn Sie eine Root Cause Analysis (RCA) schreiben möchten, ohne andere Teams zu beschuldigen. Postmortems sollen nicht klären, „wer schuld ist“, sondern warum ein System unter realen Bedingungen versagt hat und wie sich das künftig verhindern lässt. In der Praxis scheitert diese Absicht jedoch häufig an unpräziser…

Baseline-Latenz zwischen AZ/Region messen: SRE-Best Practices

Die Baseline-Latenz zwischen AZ/Region messen ist eine der unterschätzten SRE-Grundlagen für stabile Systeme. Ohne verlässliche Baselines lassen sich Incidents kaum sauber triagieren: Ist die Latenz „normal hoch“, weil eine Region geografisch weit entfernt ist, oder „ungewöhnlich hoch“, weil ein Pfad degradiert? Steigt p99, weil die Anwendung langsam ist, oder weil Cross-AZ-Traffic plötzlich über ein überlastetes…

End-to-End-Latenz-Breakdown (DNS→TCP→TLS→HTTP): Mapping auf OSI

Ein sauberer End-to-End-Latenz-Breakdown (DNS→TCP→TLS→HTTP) ist einer der schnellsten Wege, Performance-Probleme in verteilten Systemen zu verstehen, zu erklären und nachhaltig zu beheben. Viele Teams beobachten zwar „hohe p95/p99-Latenz“, bleiben aber beim nächsten Schritt stecken: Wo entsteht die Verzögerung – bei der Namensauflösung, beim Verbindungsaufbau, beim TLS-Handshake oder erst in der HTTP-Anwendungsschicht? Genau hier hilft das OSI-Modell…

Multi-Region-Redundanz designen: Fault Domains und Trade-offs

Multi-Region-Redundanz designen ist eine der wirkungsvollsten, aber auch anspruchsvollsten Maßnahmen, um die Verfügbarkeit geschäftskritischer Systeme zu erhöhen. Während Multi-AZ-Setups in vielen Organisationen bereits Standard sind, adressiert Multi-Region-Redundanz eine andere Klasse von Risiken: großflächige Störungen, die eine ganze Region betreffen können – sei es durch Provider-Incidents, Control-Plane-Ausfälle, Netzwerkprobleme, Fehlkonfigurationen mit breitem Blast Radius oder externe Ereignisse.…