SNMP vs. Streaming Telemetry: Wofür nutzt man was?

Die Frage „SNMP vs. Streaming Telemetry: Wofür nutzt man was?“ gehört heute zu den wichtigsten Architekturentscheidungen im Netzwerkbetrieb. Viele Teams stehen vor demselben praktischen Dilemma: Das klassische Monitoring auf Basis von SNMP läuft stabil, ist bekannt und in Tools tief verankert. Gleichzeitig steigen Anforderungen an Geschwindigkeit, Granularität und Automatisierung. Moderne Betriebsmodelle mit Cloud-Anteilen, SD-WAN, EVPN-Fabrics…

„Tail Latency“ im Netzwerk messen

Wer Netzwerke nur über Durchschnittswerte bewertet, übersieht oft das eigentliche Problem: Nutzer erleben keine Mittelwerte, sondern einzelne langsame Anfragen. Genau hier setzt das Thema „Tail Latency“ im Netzwerk messen an. Während die mittlere Latenz häufig stabil wirkt, können die langsamsten ein bis fünf Prozent der Verbindungen massiv abweichen und Anwendungen spürbar beeinträchtigen. Diese Ausreißer verursachen…

NetFlow/sFlow/IPFIX fürs NOC: Reale Use Cases

Im operativen Alltag entscheidet die Sicht auf Verkehrsflüsse oft darüber, ob ein Incident in Minuten eingegrenzt oder in Stunden diskutiert wird. Genau hier setzt das Thema NetFlow/sFlow/IPFIX fürs NOC: Reale Use Cases an. Während klassische Interface-Metriken wie Auslastung, Errors oder Drops nur den Zustand eines Ports zeigen, beantworten Flow-Daten die entscheidende Frage: Wer spricht mit…

Telemetrie-Coverage auditieren: Was oft fehlt

Ein belastbares Monitoring steht und fällt nicht mit der Anzahl der Dashboards, sondern mit der tatsächlichen Abdeckung der relevanten Signale. Genau deshalb ist Telemetrie-Coverage auditieren: Was oft fehlt kein reines Infrastrukturthema, sondern eine operative Kernaufgabe für Network Operations, Plattform-Teams und Service-Owner. Viele Organisationen sammeln große Mengen an Metriken, Logs und Traces, haben aber dennoch blinde…

Baseline für Latenz/Jitter/Loss: Thresholds sauber festlegen

Eine belastbare Baseline für Latenz/Jitter/Loss: Thresholds sauber festlegen ist im NOC-Betrieb keine Kür, sondern Pflicht. Ohne Baseline wirken Alarme zufällig, Eskalationen emotional und Prioritäten inkonsistent. Genau dort entstehen typische Betriebsprobleme: Teams reagieren auf jeden Peak, ignorieren schleichende Qualitätsverluste oder setzen starre Grenzwerte, die weder Tagesmuster noch Verkehrsklassen berücksichtigen. Das Ergebnis sind Fehlalarme, unnötige War-Rooms und…

Automatisiertes Evidence Pack: Daten für RCA vorbereiten

Ein belastbarer Post-Incident-Prozess scheitert selten an fehlender Motivation, aber sehr oft an unvollständigen Daten. Genau hier setzt das Konzept Automatisiertes Evidence Pack: Daten für RCA vorbereiten an. Wenn Störungen auftreten, sammeln Teams häufig unter Zeitdruck Screenshots, Log-Ausschnitte, Chat-Verläufe und Einzelmessungen aus verschiedenen Tools. Das Ergebnis ist meist inkonsistent: Zeitstempel passen nicht zusammen, Korrelationen fehlen, entscheidende…

Alarme mit OSI-Layer verknüpfen: Praktische Taxonomie

Die saubere Zuordnung von Netzwerkalarmen zu OSI-Layern ist einer der wirksamsten Hebel, um Störungen schneller einzugrenzen, Eskalationen zielgerichtet auszulösen und Ticketqualität messbar zu verbessern. Genau darum geht es bei Alarme mit OSI-Layer verknüpfen: Praktische Taxonomie: aus einer heterogenen Flut von Events eine konsistente, handhabbare Struktur zu machen. In vielen NOC-Umgebungen entstehen Verzögerungen nicht, weil Daten…

NOC-Tool-Checkliste: MTR, Smokeping, internes Looking Glass

Eine belastbare NOC-Tool-Checkliste: MTR, Smokeping, internes Looking Glass ist für operative Netzwerkteams mehr als eine Inventarliste. Sie entscheidet im Ernstfall darüber, ob ein Incident in Minuten eingegrenzt oder in Stunden eskaliert wird. In vielen Organisationen sind die Werkzeuge zwar vorhanden, aber weder sauber standardisiert noch konsequent in den Betriebsablauf integriert. Genau dort entstehen Reibungsverluste: Messungen…

SPAN/ERSPAN: Best Practices ohne Oversubscription

Wer in produktiven Netzwerken Pakete mitschneiden möchte, landet früher oder später bei SPAN/ERSPAN: Best Practices ohne Oversubscription. Genau an dieser Stelle entstehen jedoch die meisten Fehler: Die Spiegelung wird schnell aktiviert, der Analyzer-Port bekommt „irgendwie“ Traffic, und erst später fällt auf, dass entscheidende Frames fehlen, Zeitstempel unbrauchbar sind oder das Monitoring selbst zum Risiko für…

Schnelles PCAP mit tcpdump: Filter, die man können muss

Wer im Incident-Fall unter Zeitdruck steht, braucht vor allem eines: Schnelles PCAP mit tcpdump: Filter, die man können muss. Genau dieses Thema entscheidet oft darüber, ob ein Problem in Minuten eingegrenzt oder in stundenlangen Analyse-Sitzungen „verrauscht“ wird. In der Praxis ist tcpdump nicht schwer, aber die Qualität der Ergebnisse hängt fast vollständig von den Filtern…