Split-Horizon DNS in der Cloud: Konzept, Setup und Troubleshooting

Split-Horizon DNS in der Cloud beschreibt ein DNS-Design, bei dem derselbe Domainname je nach Abfragequelle unterschiedliche Antworten liefert. Ein interner Client (z. B. Workload in einer VPC/VNet) erhält private IPs oder private Endpoints, während ein externer Client (z. B. aus dem Internet oder aus einem Partnernetz) öffentliche IPs oder andere Ziele sieht. Dieses Konzept ist…

NetworkPolicy greift nicht? Debug Step-by-Step (Calico/Cilium etc.)

Wenn eine NetworkPolicy greift nicht-Situation in Kubernetes auftritt, ist das fast immer frustrierend: Sie haben eine Policy definiert, erwarten „Default Deny“ oder gezielte Freigaben – und trotzdem fließt Traffic scheinbar unbegrenzt weiter. In der Praxis liegt das selten daran, dass Kubernetes „NetworkPolicies ignoriert“, sondern daran, dass eine von mehreren Voraussetzungen nicht erfüllt ist: Das CNI-Plugin…

Warum „Security Group ist korrekt“, aber Traffic droppt? (Debug-Checkliste)

„Security Group ist korrekt, aber Traffic droppt“ ist eines der häufigsten und frustrierendsten Troubleshooting-Szenarien in Cloud-Netzwerken. Die Security Group (SG) ist in AWS zwar ein zentraler Control Point, aber sie ist selten der einzige. Selbst wenn Inbound- und Outbound-Regeln auf den ersten Blick stimmen, kann der Datenpfad an vielen anderen Stellen scheitern: falsche Route, falsches…

Asymmetrisches Routing in der Cloud: Häufige Ursachen + Detection

Asymmetrisches Routing in der Cloud bezeichnet eine Situation, in der Hin- und Rückweg eines Netzwerkflusses unterschiedliche Pfade nehmen. Der Client sendet Pakete über Route A, die Antwort des Servers kommt jedoch über Route B zurück – häufig über eine andere Firewall, ein anderes Gateway, eine andere Zone oder sogar eine andere Verbindung (VPN/Direct Connect). In…

VPC Flow Logs/VNet Flow Logs lesen, um blockierten Traffic zu finden

VPC Flow Logs (AWS) und VNet Flow Logs (Azure) gehören zu den zuverlässigsten Datenquellen, wenn Sie blockierten Traffic in der Cloud finden möchten – vorausgesetzt, Sie wissen, wie Sie die Felder korrekt interpretieren und wie Sie aus Rohdaten eine belastbare Diagnose ableiten. Viele On-Calls scheitern nicht daran, dass Flow Logs fehlen, sondern daran, dass Teams…

MTU in Cloud-VPN/Tunneln: Ursache für „Small works, large fails“

MTU in Cloud-VPN/Tunneln ist eine der häufigsten Ursachen für das klassische Fehlerbild „Small works, large fails“: Kleine Pakete (z. B. Ping, kurze API-Requests, kleine DNS-Antworten) funktionieren, während größere Daten (Datei-Uploads, TLS-Handshakes mit vielen Extensions, große HTTP-Responses, Datenbankabfragen) sporadisch hängen bleiben, extrem langsam werden oder timeouten. In Cloud-Umgebungen ist dieses Problem besonders verbreitet, weil zusätzliche Encapsulation-Schichten…

Blast Radius in der Cloud messen (Fault Domains): Praxisleitfaden

„Blast Radius in der Cloud messen“ ist eine Kernkompetenz für SRE, Plattformteams und SecOps, weil sie entscheidet, ob ein einzelner Fehler ein lokales Ärgernis bleibt oder zu einem großflächigen Ausfall eskaliert. In Cloud-Umgebungen ist der Blast Radius selten zufällig: Er folgt Fault Domains wie Region, Availability Zone, Subnet, Cluster, Node Pool, Load Balancer, Control Plane…

Readiness-Review-Checkliste vor dem Launch: OSI-basiert

Eine Readiness-Review-Checkliste vor dem Launch entscheidet oft darüber, ob ein Go-Live ruhig verläuft oder ob ein vermeidbarer Incident das Vertrauen von Kunden und Stakeholdern beschädigt. In der Praxis scheitern Launches selten an „einer großen Sache“, sondern an vielen kleinen Lücken: fehlende Observability, unklare Rollback-Mechanismen, falsche Timeouts, nicht getestete DNS/TLS-Pfade, unerwartete Limits (Quotas), unzureichende Rate-Limits oder…

„Second Outage“ nach Recovery vermeiden (SRE Best Practices)

„Second Outage“ nach Recovery vermeiden ist eine der wichtigsten SRE-Disziplinen, weil der gefährlichste Moment eines Incidents oft nicht der Ausfall selbst ist, sondern die Phase danach: Sobald Systeme wieder „grün“ erscheinen, steigt der Druck, Traffic zurückzuschalten, Backlogs abzuarbeiten, Deployments nachzuholen und Business-Funktionalität vollständig zu reaktivieren. Genau dann passieren Folgeausfälle – etwa durch Retry-Stürme, Cache-Warmups, überlastete…

Observability für DNS/TLS/Ingress: Hidden Layers, die SLOs zerstören

Observability für DNS/TLS/Ingress ist ein unterschätzter Erfolgsfaktor für zuverlässige Systeme, weil genau diese „Hidden Layers“ häufig außerhalb des Applikations-Stacks liegen und dennoch direkt die Nutzererfahrung bestimmen. Viele Teams messen sauber auf Layer 7: Request-Latenz, 5xx-Rate, P95/P99, Traces. Trotzdem werden SLOs gerissen – nicht wegen der Business-Logik, sondern weil davor etwas klemmt: DNS-Resolution ist langsam oder…