Layer 4 für Reliability: TCP-Retransmissions, RTO und Congestion

Layer 4 für Reliability ist in der Praxis oft der Unterschied zwischen „das Netzwerk ist erreichbar“ und „die Anwendung ist zuverlässig“. Während Layer 1–3 vor allem Konnektivität, Pfadwahl und grundlegende Paketweiterleitung sicherstellen, entscheidet auf Transportebene (Layer 4) die Dynamik von TCP darüber, ob Verbindungen stabil bleiben, ob Daten in sinnvoller Zeit ankommen und wie Systeme…

TCP in der Produktion verstehen: Window, MSS, SACK und Tuning

TCP in der Produktion verstehen heißt, die Stellschrauben zu kennen, die echte Systeme bei hoher Last, variabler Latenz und gelegentlichem Paketverlust stabil halten. In der Theorie „funktioniert TCP einfach“. In der Praxis entscheiden jedoch Details wie Window-Größe, MSS, SACK und ein paar zentrale Tuning-Parameter darüber, ob ein Service bei 10 Gbit/s sauber skaliert oder ob…

UDP in der Praxis: QUIC, Media-Streaming und Telemetrie

UDP in der Praxis ist für viele Produktionsumgebungen längst kein Randthema mehr. Wer heute moderne Web-Stacks, Echtzeitkommunikation oder großskaliges Monitoring betreibt, trifft zwangsläufig auf UDP: QUIC und HTTP/3 laufen typischerweise über UDP, Media-Streaming setzt in Echtzeit-Szenarien auf RTP/RTCP oder WebRTC, und Telemetrie-Stacks nutzen UDP-basierte Protokolle für geringe Latenz und geringe Overheads. Gleichzeitig ist UDP ein…

Anycast für DNS und Edge-Services: Praxis und Betriebsrisiken

Anycast für DNS und Edge-Services ist eine der wirkungsvollsten Techniken, um globale Verfügbarkeit, geringe Latenz und robuste Failover-Eigenschaften zu erreichen. Das Grundprinzip klingt einfach: Mehrere Standorte announcen dasselbe IP-Präfix, und das Routing sorgt dafür, dass ein Client „automatisch“ beim nächstgelegenen oder „besten“ Standort landet. In der Praxis ist Anycast jedoch kein magisches Load Balancing, sondern…

IPv6 Dual-Stack: Migrationsstrategie ohne Downtime

Eine IPv6 Dual-Stack-Einführung gilt in vielen Organisationen als der pragmatischste Weg zur IPv6-Migration, weil sie bestehende IPv4-Workloads weiterlaufen lässt und gleichzeitig IPv6 schrittweise aktiviert. „Ohne Downtime“ bedeutet dabei nicht, dass niemals etwas schiefgehen kann, sondern dass die Migrationsstrategie so gestaltet ist, dass Änderungen kontrolliert, reversibel und in kleinen, risikoarmen Schritten ausgerollt werden. Dual-Stack heißt: Systeme,…

NAT im großen Maßstab: Observability und Failure Modes

NAT im großen Maßstab ist für viele Produktionsnetze ein unvermeidbarer Bestandteil – sei es als klassisches Source NAT (SNAT/PAT) für ausgehenden Internetzugang, als Destination NAT (DNAT) für veröffentlichte Services, als CGNAT-ähnliches Design in großen Enterprise-WANs oder als Übergangstechnologie in IPv6-Migrationsphasen. Je größer die Umgebung, desto weniger ist NAT ein „Kästchen mit ein paar Regeln“ und…

BGP fürs Enterprise: Policies, Filtering und Operational Safety

BGP fürs Enterprise ist längst nicht mehr nur ein Thema für Internet-Provider. In modernen Unternehmensnetzen übernimmt BGP eine zentrale Rolle: als Routing-Protokoll für WAN- und Multi-Site-Architekturen, als Underlay/Overlay-Baustein im Data Center (z. B. EVPN), für Cloud-Anbindungen, für SD-WAN-Edges und für kontrollierte Route-Leaks zwischen VRFs oder Sicherheitszonen. Gleichzeitig ist BGP ein Protokoll, bei dem kleine Konfigurationsfehler…

OSPF/IS-IS: Das passende IGP fürs moderne Backbone wählen

OSPF/IS-IS ist im Enterprise und im Service-Provider-nahen Umfeld die Standardfrage, sobald ein Backbone modernisiert oder neu gebaut wird: Welches Interior Gateway Protocol (IGP) passt besser zu Topologie, Betriebsmodell, Automatisierung und Wachstum? Beide Protokolle sind ausgereift, breit unterstützt und können große Netzwerke stabil betreiben – sofern Design und Betrieb sauber umgesetzt werden. Dennoch gibt es reale…

Route Leak: Erkennen und verhindern im Produktionsnetz

Ein Route Leak gehört zu den riskantesten Fehlerbildern im Produktionsnetz, weil er oft gleichzeitig einfach auszulösen und schwer zu isolieren ist: Eine einzelne falsche Policy, eine zu großzügige Redistribution oder ein falsch gesetztes Community-Tag kann dazu führen, dass Routen in eine Domäne gelangen, in die sie niemals gehören. Die Auswirkungen reichen von „nur“ instabilen Pfaden…

ECMP in modernen Fabrics: Auswirkungen auf Hashing und Anwendungen

ECMP in modernen Fabrics ist einer der wichtigsten Gründe, warum heutige Data-Center- und Campus-Backbones gleichzeitig hochperformant und hochverfügbar sein können. Equal-Cost Multi-Path (ECMP) erlaubt es, mehrere gleichwertige Pfade parallel zu nutzen und so Bandbreite zu skalieren, Redundanz zu erhöhen und Failover-Zeiten zu verkürzen. In der Praxis ist ECMP aber mehr als „mehrere Routen mit gleicher…