Baseline Latenz/Jitter: Messen und internes SLA ableiten

Baseline Latenz/Jitter ist die Grundlage, um Netzwerkqualität nicht nur gefühlt, sondern belastbar messbar zu machen – und daraus ein internes SLA abzuleiten, das Teams wirklich nutzen können. In vielen Umgebungen existieren zwar Monitoring-Dashboards, aber ohne Baseline fehlt der Referenzrahmen: Ist eine RTT von 25 ms gut oder schlecht? Ist ein Jitter von 8 ms normal…

Packet-Loss-Grafiken lesen: Wann Loss „real“ ist – wann „Noise“

Packet-Loss-Grafiken lesen zu können, ist eine Kernkompetenz im NOC und im Netzwerkbetrieb, weil Paketverlust eines der deutlichsten Symptome für Quality-Probleme ist – gleichzeitig aber auch eine der häufigsten Quellen für Fehlalarme. Genau deshalb lautet die entscheidende Frage: Wann ist Loss „real“ (also echter Paketverlust im Datenpfad mit Nutzer-Impact) und wann ist Loss nur „Noise“ (Messrauschen,…

SPAN vs. ERSPAN: Setup und Oversubscription-Risiken

SPAN vs. ERSPAN ist im NOC-, Security- und Troubleshooting-Alltag ein Dauerbrenner: Beide Verfahren spiegeln Pakete zur Analyse, unterscheiden sich jedoch deutlich in Setup, Reichweite und den Risiken rund um Oversubscription. SPAN (Switched Port Analyzer) ist klassisches Port-Mirroring auf demselben Switch: Ein oder mehrere Quellports (oder VLANs) werden auf einen Zielport kopiert, an dem ein Sniffer,…

Speed-/Duplex-Mismatch: Erkennung und Impact auf Throughput

Ein Speed-/Duplex-Mismatch gehört zu den häufigsten, aber zugleich am meisten unterschätzten Ursachen für unerklärlich schlechten Netzwerkdurchsatz. Gemeint ist eine Situation, in der zwei Ethernet-Ports unterschiedliche Einstellungen für Geschwindigkeit (Speed) und/oder Übertragungsmodus (Duplex) verwenden – etwa wenn eine Seite auf Full-Duplex läuft, die Gegenstelle jedoch auf Half-Duplex oder wenn Speed-Aushandlung und feste Konfigurationen nicht zusammenpassen. Das…

vPC/MLAG Split-Brain: Symptome, Risiken und Response-Plan

Ein vPC/MLAG Split-Brain ist eine der kritischsten Fehlersituationen in redundanten Switching-Designs und kann innerhalb von Sekunden zu massiven Netzwerkstörungen führen. In einer vPC- (Virtual PortChannel) oder MLAG- (Multi-Chassis Link Aggregation) Architektur sollen zwei physische Switches wie ein logisches System wirken, damit Downstream-Geräte (z. B. Access-Switches, Server, Firewalls) aktiv/aktiv angebunden werden können. Beim Split-Brain verlieren die…

ARP Storm: Erkennen und dämpfen ohne Traffic zu kappen

Ein ARP Storm ist ein Zustand, in dem in einem Layer-2-Segment ungewöhnlich viele ARP-Anfragen und -Antworten (Address Resolution Protocol) zirkulieren und dadurch Bandbreite, Switch-CPU und Endgeräte unnötig belasten. Das Heimtückische: Ein ARP Storm wirkt oft zunächst wie „allgemein schlechtes Netzwerk“ – Anwendungen werden träge, VoIP leidet unter Jitter, Remote-Desktops ruckeln, und dennoch scheint „alles online“…

Interner Route Leak: Erkennung über Prefix Count und Policies

Ein interner Route Leak zählt zu den riskantesten Fehlerbildern in Enterprise- und Provider-Netzen, weil er oft „leise“ startet und sich dann innerhalb kurzer Zeit großflächig auswirkt. Gemeint ist damit, dass Routen innerhalb des eigenen Netzes unbeabsichtigt an falsche interne Peers weitergegeben werden – zum Beispiel wenn in BGP eine Route aus einer VRF in die…

Blackhole-Routing: FIB/RIB prüfen als Beweis

Blackhole-Routing bezeichnet eine Routing-Situation, in der Pakete zwar scheinbar korrekt geroutet werden, aber in der Praxis „verschwinden“: Der Traffic erreicht sein Ziel nicht, ohne dass ein eindeutiger Link-Down oder ein klarer Fehler im Monitoring sichtbar ist. Besonders tückisch wird es, wenn Monitoring nur Control-Plane-Indikatoren betrachtet (BGP/OSPF „up“, Interfaces „up“) und trotzdem Nutzer Timeouts melden. Das…

VLAN Drift: Warum Services „plötzlich weg“ sind (Audit-Methode)

VLAN Drift beschreibt ein leises, aber extrem wirkungsvolles Betriebsproblem: Services sind „plötzlich weg“, obwohl niemand bewusst etwas „kaputt“ geändert hat. In vielen Umgebungen zeigt sich das als scheinbar zufälliger Ausfall einzelner VLANs, als nicht reproduzierbare Störungen nach Wartungsfenstern oder als Tickets, die zwischen Teams pendeln („Routing? Firewall? DNS?“), obwohl der Fehler bereits auf Layer 2…

ECMP-Troubleshooting: Warum nur ein Teil des Traffics kaputt ist

ECMP-Troubleshooting ist in modernen Netzwerken ein Pflichtprogramm, weil Equal-Cost Multi-Path (ECMP) heute in Rechenzentren, Campus-Core-Designs, WAN-Backbones und Spine-Leaf-Fabrics als Standard gilt. Das Prinzip ist simpel: Wenn mehrere gleichwertige Pfade zum Ziel existieren, verteilt ein Router oder Switch den Traffic über mehrere Next-Hops, um Bandbreite besser zu nutzen und Redundanz zu erhöhen. In der Praxis führt…