VPC Flow Logs/VNet Flow Logs lesen, um blockierten Traffic zu finden

VPC Flow Logs (AWS) und VNet Flow Logs (Azure) gehören zu den zuverlässigsten Datenquellen, wenn Sie blockierten Traffic in der Cloud finden möchten – vorausgesetzt, Sie wissen, wie Sie die Felder korrekt interpretieren und wie Sie aus Rohdaten eine belastbare Diagnose ableiten. Viele On-Calls scheitern nicht daran, dass Flow Logs fehlen, sondern daran, dass Teams…

MTU in Cloud-VPN/Tunneln: Ursache für „Small works, large fails“

MTU in Cloud-VPN/Tunneln ist eine der häufigsten Ursachen für das klassische Fehlerbild „Small works, large fails“: Kleine Pakete (z. B. Ping, kurze API-Requests, kleine DNS-Antworten) funktionieren, während größere Daten (Datei-Uploads, TLS-Handshakes mit vielen Extensions, große HTTP-Responses, Datenbankabfragen) sporadisch hängen bleiben, extrem langsam werden oder timeouten. In Cloud-Umgebungen ist dieses Problem besonders verbreitet, weil zusätzliche Encapsulation-Schichten…

Hybrid Cloud: VPN vs. Direct Connect/ExpressRoute – wann was wählen?

Hybrid-Cloud-Architekturen stehen und fallen mit der Anbindung zwischen On-Premises-Rechenzentrum und Public Cloud. Genau hier entsteht die zentrale Frage: Hybrid Cloud: VPN vs. Direct Connect/ExpressRoute – wann was wählen? Beide Optionen können technisch „funktionieren“, unterscheiden sich aber deutlich in Latenz, Durchsatz, Stabilität, Sicherheitsmodell, Betriebsaufwand und Kostenstruktur. Ein Site-to-Site-VPN über das Internet ist schnell verfügbar und flexibel,…

Multi-Region-Architektur: Auswirkungen auf Latenz, Kosten und Availability

Eine Multi-Region-Architektur ist für viele Organisationen der nächste logische Schritt, sobald ein System global genutzt wird oder strengere Anforderungen an Ausfallsicherheit erfüllt werden müssen. Gleichzeitig ist Multi-Region nicht nur „eine zweite Region hinzufügen“, sondern eine grundlegende Designentscheidung mit direkten Auswirkungen auf Nutzerlatenz, Infrastrukturkosten, Betriebsaufwand und tatsächliche Availability. Wer Multi-Region falsch plant, kann am Ende höhere…

IPv6 Dual-Stack in der Cloud: Nutzen, Risiken und Betrieb

IPv6 Dual-Stack in der Cloud bedeutet, dass Ihre Workloads und Services parallel über IPv4 und IPv6 erreichbar sind. Genau dieses Betriebsmodell ist für viele Organisationen der pragmatischste Weg, IPv6 einzuführen, ohne bestehende IPv4-Abhängigkeiten sofort abzuschalten. Der Nutzen ist klar: mehr Adressraum, weniger NAT-Komplexität, bessere End-to-End-Konnektivität und langfristige Zukunftssicherheit. Gleichzeitig entstehen neue Risiken und Betriebsaufgaben: zusätzliche…

Bandwidth-/Throughput-Limits in der Cloud: Warum nicht wie erwartet?

Bandwidth-/Throughput-Limits in der Cloud führen in der Praxis regelmäßig zu Überraschungen: Sie wählen eine größere VM-Instanz, sehen im Datenblatt „bis zu X Gbit/s“, starten einen Speedtest – und erreichen trotzdem nur einen Bruchteil davon. Oder ein Transfer läuft anfangs schnell und fällt dann ab. Oder innerhalb einer Region ist alles flott, aber über ein Load…

Anycast & Global Load Balancer: Vorteile und Debugging-Herausforderungen

Anycast & Global Load Balancer gehören zu den wirkungsvollsten Bausteinen, wenn Anwendungen weltweit schnell und hochverfügbar ausgeliefert werden sollen. Das Hauptkeyword Anycast & Global Load Balancer steht dabei für zwei eng verwandte Konzepte: Traffic wird nicht mehr „starr“ zu einer einzelnen Region oder zu einem einzelnen Rechenzentrum geleitet, sondern dynamisch zu einem geeigneten Standort geroutet…

Egress Control in der Cloud: Outbound sperren ohne Dependencies zu brechen

Egress Control in der Cloud beschreibt alle Maßnahmen, mit denen ausgehender Netzwerkverkehr (Outbound) aus Cloud-Workloads gezielt eingeschränkt, überwacht und gesteuert wird. Das Hauptkeyword Egress Control in der Cloud ist für Security- und Plattformteams besonders relevant, weil viele reale Angriffe nicht am Ingress beginnen, sondern beim unkontrollierten Abfluss: Malware lädt Payloads nach, kompromittierte Systeme exfiltrieren Daten…

Root Cause von „Timeouts“ in Produktion mit dem OSI-Modell bestimmen

Die Root Cause von „Timeouts“ in Produktion mit dem OSI-Modell bestimmen zu können, ist eine der wichtigsten Fähigkeiten für SRE-, Plattform- und Backend-Teams. „Timeout“ ist dabei kein Fehlergrund, sondern ein Symptom: Ein Client hat innerhalb eines definierten Zeitfensters keine erwartete Antwort erhalten. Die Ursache kann nahezu überall liegen – von DNS-Auflösung über Routing und TCP-Retransmits…

Route Tables in der Cloud troubleshooten (Step-by-Step + Checkliste)

Route Tables in der Cloud troubleshooten ist eine Kernkompetenz für Betrieb, SRE und Security, weil viele „mysteriöse“ Verbindungsprobleme am Ende auf Routing-Logik zurückgehen – nicht auf die Applikation. Wenn ein Service plötzlich nicht mehr erreichbar ist, Deployments hängen, ein Datenbankzugriff sporadisch fehlschlägt oder Egress unerwartet über das Internet statt über private Pfade läuft, ist die…