Alert „High Utilization“: Verifizieren, ob es wirklich ein Problem ist

Ein Alert „High Utilization“ wirkt auf den ersten Blick eindeutig: Ein Link, eine Queue, ein Interface oder eine Ressource ist stark ausgelastet – also muss es ein Problem sein. In der Praxis ist genau das häufig nicht der Fall. Hohe Auslastung kann völlig normal sein (z. B. geplante Backups, Replikation, Video-Workloads), kann sogar gewollt sein…

NetFlow/sFlow/IPFIX: Für Incident-Investigations nutzen

NetFlow/sFlow/IPFIX sind im Alltag eines NOC, eines Security-Teams oder eines Netzwerkbetriebs Gold wert, wenn es um Incident-Investigations geht. Während klassische Monitoring-Metriken wie Latenz, Loss, Errors und Utilization meist zeigen, dass ein Problem existiert, beantworten Flow-Daten die entscheidende Frage: Wer spricht mit wem, wie viel, wie lange und über welchen Pfad? Genau diese Sicht ist bei…

NOC-Tool-Checkliste: Minimaler Toolset für den täglichen Betrieb

Eine NOC-Tool-Checkliste hilft dabei, den täglichen Betrieb stabil, effizient und incident-ready zu gestalten – ohne in Tool-Wildwuchs zu enden. Gerade im Network Operations Center entsteht schnell der Reflex, für jedes Problem ein neues Spezialwerkzeug einzuführen. Das führt jedoch häufig zu Medienbrüchen, uneinheitlichen Datenständen und unnötiger Komplexität: Alarme werden doppelt erzeugt, Dashboards widersprechen sich, Tickets enthalten…

Baseline Latenz/Jitter: Messen und internes SLA ableiten

Baseline Latenz/Jitter ist die Grundlage, um Netzwerkqualität nicht nur gefühlt, sondern belastbar messbar zu machen – und daraus ein internes SLA abzuleiten, das Teams wirklich nutzen können. In vielen Umgebungen existieren zwar Monitoring-Dashboards, aber ohne Baseline fehlt der Referenzrahmen: Ist eine RTT von 25 ms gut oder schlecht? Ist ein Jitter von 8 ms normal…

Packet-Loss-Grafiken lesen: Wann Loss „real“ ist – wann „Noise“

Packet-Loss-Grafiken lesen zu können, ist eine Kernkompetenz im NOC und im Netzwerkbetrieb, weil Paketverlust eines der deutlichsten Symptome für Quality-Probleme ist – gleichzeitig aber auch eine der häufigsten Quellen für Fehlalarme. Genau deshalb lautet die entscheidende Frage: Wann ist Loss „real“ (also echter Paketverlust im Datenpfad mit Nutzer-Impact) und wann ist Loss nur „Noise“ (Messrauschen,…

SPAN vs. ERSPAN: Setup und Oversubscription-Risiken

SPAN vs. ERSPAN ist im NOC-, Security- und Troubleshooting-Alltag ein Dauerbrenner: Beide Verfahren spiegeln Pakete zur Analyse, unterscheiden sich jedoch deutlich in Setup, Reichweite und den Risiken rund um Oversubscription. SPAN (Switched Port Analyzer) ist klassisches Port-Mirroring auf demselben Switch: Ein oder mehrere Quellports (oder VLANs) werden auf einen Zielport kopiert, an dem ein Sniffer,…

Speed-/Duplex-Mismatch: Erkennung und Impact auf Throughput

Ein Speed-/Duplex-Mismatch gehört zu den häufigsten, aber zugleich am meisten unterschätzten Ursachen für unerklärlich schlechten Netzwerkdurchsatz. Gemeint ist eine Situation, in der zwei Ethernet-Ports unterschiedliche Einstellungen für Geschwindigkeit (Speed) und/oder Übertragungsmodus (Duplex) verwenden – etwa wenn eine Seite auf Full-Duplex läuft, die Gegenstelle jedoch auf Half-Duplex oder wenn Speed-Aushandlung und feste Konfigurationen nicht zusammenpassen. Das…

vPC/MLAG Split-Brain: Symptome, Risiken und Response-Plan

Ein vPC/MLAG Split-Brain ist eine der kritischsten Fehlersituationen in redundanten Switching-Designs und kann innerhalb von Sekunden zu massiven Netzwerkstörungen führen. In einer vPC- (Virtual PortChannel) oder MLAG- (Multi-Chassis Link Aggregation) Architektur sollen zwei physische Switches wie ein logisches System wirken, damit Downstream-Geräte (z. B. Access-Switches, Server, Firewalls) aktiv/aktiv angebunden werden können. Beim Split-Brain verlieren die…

ARP Storm: Erkennen und dämpfen ohne Traffic zu kappen

Ein ARP Storm ist ein Zustand, in dem in einem Layer-2-Segment ungewöhnlich viele ARP-Anfragen und -Antworten (Address Resolution Protocol) zirkulieren und dadurch Bandbreite, Switch-CPU und Endgeräte unnötig belasten. Das Heimtückische: Ein ARP Storm wirkt oft zunächst wie „allgemein schlechtes Netzwerk“ – Anwendungen werden träge, VoIP leidet unter Jitter, Remote-Desktops ruckeln, und dennoch scheint „alles online“…

Interner Route Leak: Erkennung über Prefix Count und Policies

Ein interner Route Leak zählt zu den riskantesten Fehlerbildern in Enterprise- und Provider-Netzen, weil er oft „leise“ startet und sich dann innerhalb kurzer Zeit großflächig auswirkt. Gemeint ist damit, dass Routen innerhalb des eigenen Netzes unbeabsichtigt an falsche interne Peers weitergegeben werden – zum Beispiel wenn in BGP eine Route aus einer VRF in die…