Peering vs. Transit: Die richtige Topologie wählen

Peering vs. Transit: Die richtige Topologie wählen ist eine der wichtigsten Architekturentscheidungen, wenn Cloud-Netzwerke wachsen und mehr als „eine VPC und fertig“ werden. Anfangs wirkt Peering attraktiv: zwei Netze direkt verbinden, schnell, relativ simpel, oft mit niedriger Latenz. Spätestens wenn mehrere Teams, Umgebungen (Dev/Staging/Prod), Regionen oder Partnersysteme hinzukommen, kippt das Bild. Dann tauchen Fragen auf,…

Change Safety für Network IaC (Terraform)

Change Safety für Network IaC (Terraform) bedeutet, Netzwerkänderungen so zu planen, zu prüfen und auszurollen, dass Ausfälle, Sicherheitslücken und unerwartete Kosten möglichst ausgeschlossen werden. Gerade im Netzwerk sind kleine Terraform-Änderungen oft hochriskant: eine Route, die „nur kurz“ angepasst wird, kann Produktionsverkehr umleiten; ein Security-Group-Update kann kritische Ports öffnen oder blockieren; ein NAT- oder Gateway-Wechsel kann…

Hybrid Connectivity: VPN vs. Dedicated Link

Hybrid Connectivity: VPN vs. Dedicated Link ist eine Kernentscheidung für Unternehmen, die Workloads zwischen On-Premises-Rechenzentrum und Cloud (oder zwischen Colocation und Cloud) zuverlässig verbinden möchten. Im Alltag geht es dabei nicht nur um „Konnektivität vorhanden“, sondern um Latenz, Bandbreite, Verfügbarkeit, Sicherheit, Betriebskomplexität und Kosten über mehrere Jahre. Ein Site-to-Site-VPN wirkt zunächst attraktiv: schnell eingerichtet, flexibel,…

DNS in der Cloud: Resolver, Private Zones, Split-Horizon

DNS in der Cloud: Resolver, Private Zones, Split-Horizon ist ein Thema, das in der Praxis oft unterschätzt wird, obwohl es bei nahezu jedem Incident im Netzwerk- oder Plattformbereich eine Rolle spielt. Wenn Anwendungen „plötzlich“ nicht mehr erreichbar sind, Requests in Timeouts laufen oder Private Endpoints nicht funktionieren, steckt sehr häufig keine mysteriöse Routingstörung dahinter, sondern…

Security Group „korrekt“, aber Traffic droppt: So verifizierst du es

Wenn eine Security Group „korrekt“ aussieht, aber der Traffic droppt, beginnt oft die frustrierendste Art von Netzwerkdebugging: Die Regeln wirken sauber, Ports sind freigegeben, Quellen stimmen – und trotzdem kommt keine Verbindung zustande oder sie bricht sporadisch ab. In Cloud-Umgebungen ist das ein typisches Muster, weil Security Groups (oder äquivalente Konstrukte wie Azure NSG und…

Latency Budgeting für Microservices

Latency Budgeting für Microservices ist eine der wirkungsvollsten Methoden, um Performance planbar zu machen und „Latenz-Überraschungen“ in verteilten Systemen zu vermeiden. In einer Microservices-Architektur entsteht die End-to-End-Latenz nicht an einer einzigen Stelle, sondern durch die Summe vieler kleiner Anteile: Netzwerk (DNS, TCP, TLS), Load Balancer, Service Mesh, Serialisierung, Authentifizierung, Datenbankzugriffe, Cache-Misses, externe APIs und interne…

Synthetic vs. RUM: Aus zwei Perspektiven messen

Synthetic vs. RUM ist eine der wichtigsten Unterscheidungen, wenn Sie Performance, Verfügbarkeit und Nutzererlebnis zuverlässig messen möchten. Denn dieselbe Anwendung kann in einem Laborszenario stabil und schnell wirken, während echte Nutzer in bestimmten Regionen, Geräten oder Netzwerken deutliche Probleme sehen – oder umgekehrt: RUM zeigt „durchschnittlich ok“, aber ein reproduzierbarer Fehler in einem kritischen Flow…

Readiness Review vor dem Launch: OSI-Checkliste fürs Platform-Team

Ein Readiness Review vor dem Launch ist für Plattform- und Infrastrukturteams die zuverlässigste Methode, um ungeplante Ausfälle, Eskalationen und „Überraschungs-Incidents“ rund um Go-Live zu vermeiden. Gerade bei neuen Produkten, größeren Releases oder Migrationen ist nicht die Feature-Liste das Risiko, sondern die Kombination aus Traffic, Abhängigkeiten, Timeouts, Observability-Lücken und unklaren Betriebsprozessen. Eine besonders praxistaugliche Struktur für…

„User Impact“ bei Network-Degradation messen

„User Impact“ bei Network-Degradation messen bedeutet, die Auswirkungen von Netzwerkproblemen konsequent aus Nutzersicht zu quantifizieren – nicht nur aus Infrastrukturperspektive. Denn ein Anstieg von Paketverlust, Retransmits oder TLS-Handshake-Fehlern ist erst dann wirklich relevant, wenn er spürbare Folgen hat: langsame Seiten, abgebrochene Checkouts, fehlgeschlagene Logins, Timeouts in kritischen APIs oder steigende Abbruchraten in mobilen Netzen. In…

SLOs für DNS/TLS/Ingress: Die oft vergessenen „Hidden Layers“

SLOs für DNS/TLS/Ingress gehören zu den meist unterschätzten Stellschrauben für Verfügbarkeit und Performance. Viele Teams definieren Service Level Objectives (SLOs) für ihre Anwendungen, APIs oder Datenbanken, übersehen aber die „Hidden Layers“ davor: Namensauflösung (DNS), Handshake und Verschlüsselung (TLS) sowie den Eintrittspunkt in die Plattform (Ingress, Load Balancer, API Gateway, Service Mesh Edge). Genau diese Schichten…