Bridge Networking vs. Routed CNI: L2-Effekte in Kubernetes

Bridge Networking vs. Routed CNI ist in Kubernetes kein akademischer Streit, sondern eine praktische Entscheidung, die Latenz, Fehlersuche, Skalierbarkeit und Sicherheitsmodell Ihrer Plattform messbar beeinflusst. Viele Teams merken das erst im Incident: Ein Node wird „noisy“, ARP- und Broadcast-Traffic steigt, Tail Latency kippt, oder einzelne Pods sind intermittierend nicht erreichbar. Häufig liegt die Ursache nicht…

„Flaky“ CNI troubleshooten: L2-Issue vs. Policy-Issue trennen

Ein „flaky CNI troubleshooten“ gehört zu den unangenehmsten Aufgaben im Kubernetes-Betrieb: Die Symptome sind real (Timeouts, sporadische Verbindungsabbrüche, DNS-Fehler, „No route to host“), aber sie treten unzuverlässig auf, verschwinden nach einem Pod-Restart und tauchen später wieder auf. In solchen Situationen ist die wichtigste Fähigkeit nicht das Ausprobieren von Einzelmaßnahmen, sondern die saubere Trennung zweier Fehlerklassen:…

Security Group wirkt korrekt, aber Traffic droppt: Kann L2/Overlay sein

Wenn eine Security Group korrekt wirkt, aber Traffic droppt, entsteht in vielen Teams ein reflexartiges Debugging-Muster: Regeln prüfen, Ports vergleichen, CIDRs kontrollieren, „Allow all“ zum Testen setzen – und wenn es dann immer noch nicht zuverlässig funktioniert, beginnt die Ratlosigkeit. Genau hier lohnt sich ein Perspektivwechsel: Security Groups (oder vergleichbare Cloud-Firewall-Konstrukte) beschreiben, was erlaubt ist,…

L2-Blast-Radius vermeiden: Segmentierungspraktiken fürs Platform-Team

Den L2-Blast-Radius vermeiden klingt zunächst nach klassischem NetOps-Thema – bis man als Platform-Team mitten im Incident merkt, dass ein Layer-2-Effekt (ARP-Spikes, Unknown-Unicast-Flooding, MAC-Flapping oder MTU-Fehler in einem Overlay) plötzlich zahlreiche Services gleichzeitig „braun“ werden lässt: Timeouts, p99-Latenzspitzen, sporadische Verbindungsabbrüche. Gerade in virtualisierten Umgebungen, Kubernetes-Clustern und hybriden Setups ist L2 häufig nicht „weg“, sondern nur besser…

Layer 3 in der Cloud: Routing, CIDR und die teuersten Designfehler

Layer 3 in der Cloud ist die unsichtbare Infrastruktur, auf der fast alles aufbaut: Routing-Entscheidungen, CIDR-Planung, Transit-Topologien, Egress-Strategien, Private Connectivity und die Frage, wie Services über Zonen, Regionen und Accounts hinweg miteinander sprechen. Viele Cloud-Probleme, die später als „mysteriöse Timeouts“ oder „sporadische Drops“ erscheinen, sind in Wahrheit Layer-3-Designfehler: falsche Adressräume, schlecht geplante Route-Tabellen, unklare Ownership…

Provider-Status + Telemetrie nutzen, um Underlay-Störungen zu validieren

Provider-Status + Telemetrie nutzen, um Underlay-Störungen zu validieren ist in Cloud-Umgebungen eine der wirksamsten Methoden, um in Incidents schnell von Vermutungen zu belastbaren Aussagen zu kommen. Unterlay-Störungen – also Probleme in der physischen oder providerinternen Netzwerk- und Infrastruktur-Ebene – sind für Kundenteams selten direkt sichtbar. Sie äußern sich meist indirekt: erhöhte Tail Latency (p95/p99), sporadische…

OSI-Modell für SRE: Framework zur Problem-Isolation vom „Symptom“ zur Root Cause

Das OSI-Modell für SRE ist ein überraschend wirkungsvolles Denkwerkzeug, wenn Systeme ausgerechnet dann ausfallen, wenn man am wenigsten Zeit für Rätselraten hat. Site Reliability Engineering (SRE) lebt von schnellen, reproduzierbaren Diagnosen: Was ist gerade kaputt, wo liegt die Ursache, und wie verhindern wir die Wiederholung? Genau hier hilft das OSI-Modell – nicht als Lehrbuchstoff aus…

Cross-Zone-Traffic: Warum Kosten steigen und Latenz gleich mit

Cross-Zone-Traffic klingt nach einem Detail im Netzwerkdesign, ist in der Praxis aber ein verlässlicher Treiber für zwei Dinge, die niemand gerne steigen sieht: Cloud-Kosten und Latenz. Sobald Workloads über Availability-Zone-Grenzen hinweg kommunizieren, entstehen häufig zusätzliche Datenübertragungsgebühren, und die End-to-End-Response-Zeit wird variabler – insbesondere im Tail (p95/p99). Das ist kein Widerspruch zu „Multi-AZ ist gut“: Hochverfügbarkeit…

OSI-basiertes Incident Triage: Entscheiden, ob es Network oder App ist

OSI-basiertes Incident Triage ist eine pragmatische Methode, um in Störungen schnell die wichtigste Frage zu beantworten: Ist es ein Netzwerkproblem oder ein App-Problem? In der Realität fühlt sich beides oft gleich an – Nutzer sehen Timeouts, 5xx-Fehler oder extrem hohe Latenzen. Unter Druck entstehen dann typische Fehlmuster: Teams springen zwischen Dashboards, suchen „irgendwo“ nach Auffälligkeiten,…

„Noisy Neighbor“ in Cloud-Infrastruktur: Telemetrie-Signale erkennen

„Noisy Neighbor“ ist einer der häufigsten Gründe, warum Cloud-Workloads plötzlich schwanken, obwohl weder Code noch Konfiguration verändert wurden. Gemeint ist die Beeinflussung durch andere Workloads, die sich Ressourcen mit Ihnen teilen – etwa CPU-Zeit, Netzwerk-Fabric, Storage-Backends, Host-NICs oder I/O-Pfade. In Multi-Tenant-Umgebungen ist das normal: Provider optimieren Auslastung, und Plattformteams konsolidieren Workloads auf gemeinsamen Nodes. Das…