Network Partition in Microservices: Theorie mit echten Incidents verbinden

Eine Network Partition in Microservices ist eine der unangenehmsten Störungsarten im Betrieb verteilter Systeme: Die Systeme laufen weiter, aber sie sehen sich gegenseitig nur noch teilweise oder gar nicht mehr. Das Ergebnis sind Fehlerbilder, die sich wie „sporadische Bugs“ anfühlen – Timeouts hier, erhöhte Latenz dort, unerklärliche Retries, plötzliches Wiederauftreten nach Minuten – und doch…

„MAC/ARP Storm“ in virtualisierten Umgebungen: Symptome und Mitigation

Ein „MAC/ARP Storm“ in virtualisierten Umgebungen ist ein klassisches Beispiel dafür, wie ein scheinbar „kleines“ Layer-2-Problem zu massiven Auswirkungen auf Layer 4–7 führen kann. In Rechenzentren, Private Clouds und Kubernetes-basierten Plattformen ist die Netzwerkebene stark softwaredefiniert: Virtuelle Switches, Overlays und dynamische Workloads erhöhen die Anzahl von Endpunkten und die Änderungsrate (Churn). Genau diese Kombination macht…

L2-Segmentierung für Workloads: Wann noch sinnvoll – wann nicht

L2-Segmentierung für Workloads ist ein Thema, das in vielen Organisationen entweder reflexartig bejaht („Das haben wir immer so gemacht: VLAN pro Team!“) oder pauschal abgelehnt wird („Alles ist doch L3 und Zero Trust“). In der Praxis liegt die Wahrheit dazwischen: Layer-2-Segmentierung kann weiterhin sinnvoll sein – allerdings nur dann, wenn sie ein konkretes Problem löst…

Bridge Networking vs. Routed CNI: L2-Effekte in Kubernetes

Bridge Networking vs. Routed CNI ist in Kubernetes kein akademischer Streit, sondern eine praktische Entscheidung, die Latenz, Fehlersuche, Skalierbarkeit und Sicherheitsmodell Ihrer Plattform messbar beeinflusst. Viele Teams merken das erst im Incident: Ein Node wird „noisy“, ARP- und Broadcast-Traffic steigt, Tail Latency kippt, oder einzelne Pods sind intermittierend nicht erreichbar. Häufig liegt die Ursache nicht…

„Flaky“ CNI troubleshooten: L2-Issue vs. Policy-Issue trennen

Ein „flaky CNI troubleshooten“ gehört zu den unangenehmsten Aufgaben im Kubernetes-Betrieb: Die Symptome sind real (Timeouts, sporadische Verbindungsabbrüche, DNS-Fehler, „No route to host“), aber sie treten unzuverlässig auf, verschwinden nach einem Pod-Restart und tauchen später wieder auf. In solchen Situationen ist die wichtigste Fähigkeit nicht das Ausprobieren von Einzelmaßnahmen, sondern die saubere Trennung zweier Fehlerklassen:…

Security Group wirkt korrekt, aber Traffic droppt: Kann L2/Overlay sein

Wenn eine Security Group korrekt wirkt, aber Traffic droppt, entsteht in vielen Teams ein reflexartiges Debugging-Muster: Regeln prüfen, Ports vergleichen, CIDRs kontrollieren, „Allow all“ zum Testen setzen – und wenn es dann immer noch nicht zuverlässig funktioniert, beginnt die Ratlosigkeit. Genau hier lohnt sich ein Perspektivwechsel: Security Groups (oder vergleichbare Cloud-Firewall-Konstrukte) beschreiben, was erlaubt ist,…

L2-Blast-Radius vermeiden: Segmentierungspraktiken fürs Platform-Team

Den L2-Blast-Radius vermeiden klingt zunächst nach klassischem NetOps-Thema – bis man als Platform-Team mitten im Incident merkt, dass ein Layer-2-Effekt (ARP-Spikes, Unknown-Unicast-Flooding, MAC-Flapping oder MTU-Fehler in einem Overlay) plötzlich zahlreiche Services gleichzeitig „braun“ werden lässt: Timeouts, p99-Latenzspitzen, sporadische Verbindungsabbrüche. Gerade in virtualisierten Umgebungen, Kubernetes-Clustern und hybriden Setups ist L2 häufig nicht „weg“, sondern nur besser…

Layer 3 in der Cloud: Routing, CIDR und die teuersten Designfehler

Layer 3 in der Cloud ist die unsichtbare Infrastruktur, auf der fast alles aufbaut: Routing-Entscheidungen, CIDR-Planung, Transit-Topologien, Egress-Strategien, Private Connectivity und die Frage, wie Services über Zonen, Regionen und Accounts hinweg miteinander sprechen. Viele Cloud-Probleme, die später als „mysteriöse Timeouts“ oder „sporadische Drops“ erscheinen, sind in Wahrheit Layer-3-Designfehler: falsche Adressräume, schlecht geplante Route-Tabellen, unklare Ownership…

Provider-Status + Telemetrie nutzen, um Underlay-Störungen zu validieren

Provider-Status + Telemetrie nutzen, um Underlay-Störungen zu validieren ist in Cloud-Umgebungen eine der wirksamsten Methoden, um in Incidents schnell von Vermutungen zu belastbaren Aussagen zu kommen. Unterlay-Störungen – also Probleme in der physischen oder providerinternen Netzwerk- und Infrastruktur-Ebene – sind für Kundenteams selten direkt sichtbar. Sie äußern sich meist indirekt: erhöhte Tail Latency (p95/p99), sporadische…

OSI-Modell für SRE: Framework zur Problem-Isolation vom „Symptom“ zur Root Cause

Das OSI-Modell für SRE ist ein überraschend wirkungsvolles Denkwerkzeug, wenn Systeme ausgerechnet dann ausfallen, wenn man am wenigsten Zeit für Rätselraten hat. Site Reliability Engineering (SRE) lebt von schnellen, reproduzierbaren Diagnosen: Was ist gerade kaputt, wo liegt die Ursache, und wie verhindern wir die Wiederholung? Genau hier hilft das OSI-Modell – nicht als Lehrbuchstoff aus…