EVPN Fundamentals für Ops: Underlay vs. Overlay (praxisnah erklärt)

EVPN Fundamentals für Ops sind heute Pflichtwissen, weil immer mehr Metro-, Datacenter- und Provider-Netze Ethernet-Services nicht mehr als „große Bridge-Domänen“ betreiben, sondern als Overlay über ein IP-Underlay. Genau hier entsteht im Betrieb häufig Verwirrung: Ein Ticket klingt nach Layer 2 („MAC flapped“, „VLAN geht nicht“), aber die Ursache liegt im Underlay (BGP/IGP, MTU, ECMP, BFD,…

BGP-Peering-Troubleshooting: Interconnect, Policy oder Congestion?

BGP-Peering-Troubleshooting ist im Provider- und Carrier-Umfeld eine der häufigsten Ursachen für eskalierende Tickets, weil Symptome auf Kundenseite selten eindeutig sind: „Latenz hoch“, „Packet Loss“, „bestimmte Ziele unreachable“ oder „Traffic nimmt plötzlich einen anderen Pfad“. In der Praxis steckt dahinter meist eine von drei Klassen: ein Interconnect-Problem (physisch oder L2/L3 am Peering-Port), ein Policy-Problem (Filter, Attributes,…

EVPN Multihoming: Failure Modes und Validierungs-Checkliste

EVPN Multihoming ist einer der größten operativen Vorteile von EVPN – und gleichzeitig eine der häufigsten Ursachen für schwer erklärbare Störungen, wenn Design, Konfiguration und Validierung nicht zusammenpassen. Das Versprechen klingt einfach: Ein Customer Edge (CE) oder ein Access-Switch wird redundant an zwei Provider Edge/VTEPs angebunden, ohne klassische Layer-2-Loop-Fallen, oft ohne STP-Abhängigkeit, und mit kontrolliertem…

Route Leak: Detection über Prefix Count und Monitoring

Ein Route Leak ist einer der gefährlichsten Fehler im Internet-Routing, weil er „leise“ starten und in Minuten global eskalieren kann: Plötzlich werden Routen in die falsche Richtung propagiert, Traffic nimmt unerwartete Pfade, Latenz steigt, Congestion verschiebt sich, und im schlimmsten Fall entsteht ein großflächiger Outage durch Überlast oder Blackholing. Operativ ist das Problem tückisch, weil…

EVPN-VXLAN Troubleshooting: Warum es anders ist als klassisches VLAN

EVPN-VXLAN Troubleshooting ist anders als klassisches VLAN-Troubleshooting, weil sich die Fehlerdomäne von „ein gemeinsames Layer-2-Segment“ zu einem Overlay-Transport über ein IP-Underlay verschiebt. In klassischen VLAN-Designs entstehen die meisten Probleme durch lokale Bridging-Mechanik: falsche VLAN-Zuordnung am Port, STP/Loop-Themen, MAC-Learning, Flooding, falsch gesetzte MTU oder ein defekter Trunk. In EVPN-VXLAN kommt eine zweite Welt hinzu: Das Underlay…

Route-Leak-Response-Plan: Mitigation in Minuten (Provider Runbook)

Ein Route-Leak-Response-Plan ist im Provider-Betrieb kein „Nice-to-have“, sondern eine Überlebensfunktion: Route Leaks können in wenigen Minuten weltweite Auswirkungen erzeugen, weil falsche Ankündigungen (Announcements) Trafficströme umleiten, Congestion verschieben und im Extremfall Blackholing auslösen. Das Tückische dabei: Die BGP-Session bleibt häufig stabil, Interfaces sind „up“, und trotzdem kippt die Routing-Wahrheit. Genau deshalb muss Mitigation in Minuten funktionieren…

MTU Underlay vs. Overlay: Ursache für „mysteriöse“ VXLAN-Drops

MTU Underlay vs. Overlay ist eine der häufigsten Ursachen für „mysteriöse“ VXLAN-Drops in modernen EVPN/VXLAN- und Overlay-Netzen. Das Gemeine daran: Der Dienst wirkt teilweise gesund. Kleine Pings funktionieren, Control Plane (BGP EVPN) ist stabil, ARP/ND scheint zu laufen – und trotzdem brechen Anwendungen ab, TCP zeigt Retransmissions, Datenübertragungen sind langsam oder instabil, und manche Flows…

ARP/ND Suppression in EVPN: Nutzen und operative Pitfalls

ARP/ND Suppression in EVPN ist ein zentraler Baustein moderner Overlay-Netze, weil er eines der klassischen Probleme großer Layer-2-Domänen entschärft: Flooding. In traditionellen VLAN- oder VPLS-Umgebungen werden ARP (IPv4) und Neighbor Discovery (IPv6) häufig als Broadcast bzw. Multicast über die gesamte Broadcast-Domain verteilt. Je größer die Domain, desto größer das Grundrauschen – und desto höher das…

Diverse Paths: Physische Redundanz wirklich getrennt verifizieren

Diverse Paths sind im Provider- und Telco-Betrieb ein zentraler Baustein für Verfügbarkeit: Physische Redundanz soll verhindern, dass ein einzelnes Ereignis – etwa ein Fiber Cut, ein Tiefbauunfall, eine Muffenstörung oder ein PoP-Problem – beide Pfade gleichzeitig trifft. In der Praxis ist „divers“ jedoch häufig nur auf dem Papier divers. Viele Outages entstehen genau deshalb, weil…

Optik-Inventar: Falscher Optik-Typ als Outage-Ursache

Optik-Inventar ist im ISP- und Telco-Betrieb weit mehr als eine „Asset-Liste“ – es ist ein operatives Sicherheitsnetz. Ein falscher Optik-Typ als Outage-Ursache gehört zu den häufigsten, aber am stärksten unterschätzten Fehlerbildern in Layer-1/Transport: Der Link kommt hoch, wirkt zunächst stabil, und kippt dann unter Last, Temperaturwechsel oder nach einem scheinbar harmlosen Change. Oder der Link…