EVPN/VXLAN im Data Center: Relevanz für Platform Engineers

EVPN/VXLAN im Data Center ist längst kein reines „Netzwerkthema“ mehr, sondern ein praktisches Fundament für moderne Plattformen. Wer als Platform Engineer Kubernetes-Cluster betreibt, Bare-Metal-Workloads integriert, Private-Cloud-Services bereitstellt oder hybride Architekturen zwischen On-Premises und Public Cloud verantwortet, trifft früher oder später auf EVPN und VXLAN – auch wenn keine Switch-CLI zum Alltag gehört. Der Grund ist…

Network Partition in Microservices: Theorie mit echten Incidents verbinden

Eine Network Partition in Microservices ist eine der unangenehmsten Störungsarten im Betrieb verteilter Systeme: Die Systeme laufen weiter, aber sie sehen sich gegenseitig nur noch teilweise oder gar nicht mehr. Das Ergebnis sind Fehlerbilder, die sich wie „sporadische Bugs“ anfühlen – Timeouts hier, erhöhte Latenz dort, unerklärliche Retries, plötzliches Wiederauftreten nach Minuten – und doch…

„MAC/ARP Storm“ in virtualisierten Umgebungen: Symptome und Mitigation

Ein „MAC/ARP Storm“ in virtualisierten Umgebungen ist ein klassisches Beispiel dafür, wie ein scheinbar „kleines“ Layer-2-Problem zu massiven Auswirkungen auf Layer 4–7 führen kann. In Rechenzentren, Private Clouds und Kubernetes-basierten Plattformen ist die Netzwerkebene stark softwaredefiniert: Virtuelle Switches, Overlays und dynamische Workloads erhöhen die Anzahl von Endpunkten und die Änderungsrate (Churn). Genau diese Kombination macht…

L2-Segmentierung für Workloads: Wann noch sinnvoll – wann nicht

L2-Segmentierung für Workloads ist ein Thema, das in vielen Organisationen entweder reflexartig bejaht („Das haben wir immer so gemacht: VLAN pro Team!“) oder pauschal abgelehnt wird („Alles ist doch L3 und Zero Trust“). In der Praxis liegt die Wahrheit dazwischen: Layer-2-Segmentierung kann weiterhin sinnvoll sein – allerdings nur dann, wenn sie ein konkretes Problem löst…

Bridge Networking vs. Routed CNI: L2-Effekte in Kubernetes

Bridge Networking vs. Routed CNI ist in Kubernetes kein akademischer Streit, sondern eine praktische Entscheidung, die Latenz, Fehlersuche, Skalierbarkeit und Sicherheitsmodell Ihrer Plattform messbar beeinflusst. Viele Teams merken das erst im Incident: Ein Node wird „noisy“, ARP- und Broadcast-Traffic steigt, Tail Latency kippt, oder einzelne Pods sind intermittierend nicht erreichbar. Häufig liegt die Ursache nicht…

„Flaky“ CNI troubleshooten: L2-Issue vs. Policy-Issue trennen

Ein „flaky CNI troubleshooten“ gehört zu den unangenehmsten Aufgaben im Kubernetes-Betrieb: Die Symptome sind real (Timeouts, sporadische Verbindungsabbrüche, DNS-Fehler, „No route to host“), aber sie treten unzuverlässig auf, verschwinden nach einem Pod-Restart und tauchen später wieder auf. In solchen Situationen ist die wichtigste Fähigkeit nicht das Ausprobieren von Einzelmaßnahmen, sondern die saubere Trennung zweier Fehlerklassen:…

Security Group wirkt korrekt, aber Traffic droppt: Kann L2/Overlay sein

Wenn eine Security Group korrekt wirkt, aber Traffic droppt, entsteht in vielen Teams ein reflexartiges Debugging-Muster: Regeln prüfen, Ports vergleichen, CIDRs kontrollieren, „Allow all“ zum Testen setzen – und wenn es dann immer noch nicht zuverlässig funktioniert, beginnt die Ratlosigkeit. Genau hier lohnt sich ein Perspektivwechsel: Security Groups (oder vergleichbare Cloud-Firewall-Konstrukte) beschreiben, was erlaubt ist,…

L2-Blast-Radius vermeiden: Segmentierungspraktiken fürs Platform-Team

Den L2-Blast-Radius vermeiden klingt zunächst nach klassischem NetOps-Thema – bis man als Platform-Team mitten im Incident merkt, dass ein Layer-2-Effekt (ARP-Spikes, Unknown-Unicast-Flooding, MAC-Flapping oder MTU-Fehler in einem Overlay) plötzlich zahlreiche Services gleichzeitig „braun“ werden lässt: Timeouts, p99-Latenzspitzen, sporadische Verbindungsabbrüche. Gerade in virtualisierten Umgebungen, Kubernetes-Clustern und hybriden Setups ist L2 häufig nicht „weg“, sondern nur besser…

Layer 3 in der Cloud: Routing, CIDR und die teuersten Designfehler

Layer 3 in der Cloud ist die unsichtbare Infrastruktur, auf der fast alles aufbaut: Routing-Entscheidungen, CIDR-Planung, Transit-Topologien, Egress-Strategien, Private Connectivity und die Frage, wie Services über Zonen, Regionen und Accounts hinweg miteinander sprechen. Viele Cloud-Probleme, die später als „mysteriöse Timeouts“ oder „sporadische Drops“ erscheinen, sind in Wahrheit Layer-3-Designfehler: falsche Adressräume, schlecht geplante Route-Tabellen, unklare Ownership…

CIDR-Planung fürs Wachstum: Strategie ohne schmerzhaftes Re-IP

CIDR-Planung fürs Wachstum ist eine der wenigen Cloud-Entscheidungen, die sich später nur mit großem Aufwand korrigieren lassen. Solange eine Umgebung klein ist, wirkt ein knapp gewählter Adressraum oft „gut genug“: ein paar Subnetze, ein NAT-Gateway, ein Cluster, fertig. Mit echter Skalierung kippt diese Komfortzone jedoch schnell. Kubernetes vergrößert den IP-Bedarf durch Pods, Nodes und Services,…