Alert-Thresholds richtig festlegen (gegen Alert Fatigue)

Alert-Thresholds richtig festlegen ist eine der wirkungsvollsten Maßnahmen gegen Alert Fatigue – also die schleichende „Alarm-Müdigkeit“, bei der ein NOC, SRE-Team oder On-Call-Rotation so viele Warnungen erhält, dass echte Incidents im Rauschen untergehen. In der Praxis scheitern Monitoring-Strategien selten daran, dass keine Daten vorhanden wären, sondern daran, dass die Schwellenwerte (Thresholds) falsch gesetzt sind: zu…

Top-Talkers-Investigation: Ursachen für Congestion finden

Eine Top-Talkers-Investigation ist eine der zuverlässigsten Methoden, um Congestion (Überlast) in Netzwerken schnell auf eine Ursache zurückzuführen. Sobald ein Link oder eine Queue in die Sättigung läuft, steigen typischerweise Latenz und Jitter, Drops nehmen zu, Applikationen werden „langsam“ und Control-Plane-Protokolle können instabil werden. Die entscheidende Frage im NOC lautet dann: Wer erzeugt die Last –…

SNMP vs. Streaming Telemetry: Was ist besser fürs NOC?

Die Frage „SNMP vs. Streaming Telemetry: Was ist besser fürs NOC?“ taucht in nahezu jedem modernen Netzwerkbetrieb auf, weil sich die Anforderungen an Netzwerk-Monitoring in den letzten Jahren deutlich verändert haben. Ein NOC (Network Operations Center) soll nicht nur erkennen, ob ein Interface „up“ ist, sondern auch, warum Nutzer Performance-Probleme melden, weshalb nur ein Teil…

Alert „High Utilization“: Verifizieren, ob es wirklich ein Problem ist

Ein Alert „High Utilization“ wirkt auf den ersten Blick eindeutig: Ein Link, eine Queue, ein Interface oder eine Ressource ist stark ausgelastet – also muss es ein Problem sein. In der Praxis ist genau das häufig nicht der Fall. Hohe Auslastung kann völlig normal sein (z. B. geplante Backups, Replikation, Video-Workloads), kann sogar gewollt sein…

NetFlow/sFlow/IPFIX: Für Incident-Investigations nutzen

NetFlow/sFlow/IPFIX sind im Alltag eines NOC, eines Security-Teams oder eines Netzwerkbetriebs Gold wert, wenn es um Incident-Investigations geht. Während klassische Monitoring-Metriken wie Latenz, Loss, Errors und Utilization meist zeigen, dass ein Problem existiert, beantworten Flow-Daten die entscheidende Frage: Wer spricht mit wem, wie viel, wie lange und über welchen Pfad? Genau diese Sicht ist bei…

NOC-Tool-Checkliste: Minimaler Toolset für den täglichen Betrieb

Eine NOC-Tool-Checkliste hilft dabei, den täglichen Betrieb stabil, effizient und incident-ready zu gestalten – ohne in Tool-Wildwuchs zu enden. Gerade im Network Operations Center entsteht schnell der Reflex, für jedes Problem ein neues Spezialwerkzeug einzuführen. Das führt jedoch häufig zu Medienbrüchen, uneinheitlichen Datenständen und unnötiger Komplexität: Alarme werden doppelt erzeugt, Dashboards widersprechen sich, Tickets enthalten…

Baseline Latenz/Jitter: Messen und internes SLA ableiten

Baseline Latenz/Jitter ist die Grundlage, um Netzwerkqualität nicht nur gefühlt, sondern belastbar messbar zu machen – und daraus ein internes SLA abzuleiten, das Teams wirklich nutzen können. In vielen Umgebungen existieren zwar Monitoring-Dashboards, aber ohne Baseline fehlt der Referenzrahmen: Ist eine RTT von 25 ms gut oder schlecht? Ist ein Jitter von 8 ms normal…

Packet-Loss-Grafiken lesen: Wann Loss „real“ ist – wann „Noise“

Packet-Loss-Grafiken lesen zu können, ist eine Kernkompetenz im NOC und im Netzwerkbetrieb, weil Paketverlust eines der deutlichsten Symptome für Quality-Probleme ist – gleichzeitig aber auch eine der häufigsten Quellen für Fehlalarme. Genau deshalb lautet die entscheidende Frage: Wann ist Loss „real“ (also echter Paketverlust im Datenpfad mit Nutzer-Impact) und wann ist Loss nur „Noise“ (Messrauschen,…

SPAN vs. ERSPAN: Setup und Oversubscription-Risiken

SPAN vs. ERSPAN ist im NOC-, Security- und Troubleshooting-Alltag ein Dauerbrenner: Beide Verfahren spiegeln Pakete zur Analyse, unterscheiden sich jedoch deutlich in Setup, Reichweite und den Risiken rund um Oversubscription. SPAN (Switched Port Analyzer) ist klassisches Port-Mirroring auf demselben Switch: Ein oder mehrere Quellports (oder VLANs) werden auf einen Zielport kopiert, an dem ein Sniffer,…

Speed-/Duplex-Mismatch: Erkennung und Impact auf Throughput

Ein Speed-/Duplex-Mismatch gehört zu den häufigsten, aber zugleich am meisten unterschätzten Ursachen für unerklärlich schlechten Netzwerkdurchsatz. Gemeint ist eine Situation, in der zwei Ethernet-Ports unterschiedliche Einstellungen für Geschwindigkeit (Speed) und/oder Übertragungsmodus (Duplex) verwenden – etwa wenn eine Seite auf Full-Duplex läuft, die Gegenstelle jedoch auf Half-Duplex oder wenn Speed-Aushandlung und feste Konfigurationen nicht zusammenpassen. Das…