SNMP vs. Streaming Telemetry: Wofür nutzt man was?

Die Frage „SNMP vs. Streaming Telemetry: Wofür nutzt man was?“ gehört heute zu den wichtigsten Architekturentscheidungen im Netzwerkbetrieb. Viele Teams stehen vor demselben praktischen Dilemma: Das klassische Monitoring auf Basis von SNMP läuft stabil, ist bekannt und in Tools tief verankert. Gleichzeitig steigen Anforderungen an Geschwindigkeit, Granularität und Automatisierung. Moderne Betriebsmodelle mit Cloud-Anteilen, SD-WAN, EVPN-Fabrics…

„Tail Latency“ im Netzwerk messen

Wer Netzwerke nur über Durchschnittswerte bewertet, übersieht oft das eigentliche Problem: Nutzer erleben keine Mittelwerte, sondern einzelne langsame Anfragen. Genau hier setzt das Thema „Tail Latency“ im Netzwerk messen an. Während die mittlere Latenz häufig stabil wirkt, können die langsamsten ein bis fünf Prozent der Verbindungen massiv abweichen und Anwendungen spürbar beeinträchtigen. Diese Ausreißer verursachen…

NetFlow/sFlow/IPFIX fürs NOC: Reale Use Cases

Im operativen Alltag entscheidet die Sicht auf Verkehrsflüsse oft darüber, ob ein Incident in Minuten eingegrenzt oder in Stunden diskutiert wird. Genau hier setzt das Thema NetFlow/sFlow/IPFIX fürs NOC: Reale Use Cases an. Während klassische Interface-Metriken wie Auslastung, Errors oder Drops nur den Zustand eines Ports zeigen, beantworten Flow-Daten die entscheidende Frage: Wer spricht mit…

Telemetrie-Coverage auditieren: Was oft fehlt

Ein belastbares Monitoring steht und fällt nicht mit der Anzahl der Dashboards, sondern mit der tatsächlichen Abdeckung der relevanten Signale. Genau deshalb ist Telemetrie-Coverage auditieren: Was oft fehlt kein reines Infrastrukturthema, sondern eine operative Kernaufgabe für Network Operations, Plattform-Teams und Service-Owner. Viele Organisationen sammeln große Mengen an Metriken, Logs und Traces, haben aber dennoch blinde…

Baseline für Latenz/Jitter/Loss: Thresholds sauber festlegen

Eine belastbare Baseline für Latenz/Jitter/Loss: Thresholds sauber festlegen ist im NOC-Betrieb keine Kür, sondern Pflicht. Ohne Baseline wirken Alarme zufällig, Eskalationen emotional und Prioritäten inkonsistent. Genau dort entstehen typische Betriebsprobleme: Teams reagieren auf jeden Peak, ignorieren schleichende Qualitätsverluste oder setzen starre Grenzwerte, die weder Tagesmuster noch Verkehrsklassen berücksichtigen. Das Ergebnis sind Fehlalarme, unnötige War-Rooms und…

Automatisiertes Evidence Pack: Daten für RCA vorbereiten

Ein belastbarer Post-Incident-Prozess scheitert selten an fehlender Motivation, aber sehr oft an unvollständigen Daten. Genau hier setzt das Konzept Automatisiertes Evidence Pack: Daten für RCA vorbereiten an. Wenn Störungen auftreten, sammeln Teams häufig unter Zeitdruck Screenshots, Log-Ausschnitte, Chat-Verläufe und Einzelmessungen aus verschiedenen Tools. Das Ergebnis ist meist inkonsistent: Zeitstempel passen nicht zusammen, Korrelationen fehlen, entscheidende…

BGP-Flap: Transport, Timer oder Policy?

Ein belastbares Vorgehen für BGP-Flap: Transport, Timer oder Policy? ist in produktiven Netzwerken entscheidend, weil instabile BGP-Sessions nicht nur Routing-Tabellen beeinflussen, sondern unmittelbar auf Verfügbarkeit, Latenz, Paketverlust und Kundenerfahrung durchschlagen. In der Praxis wirkt ein BGP-Flap zunächst simpel: Session up, Session down, Session up. Die Ursachen sind jedoch vielschichtig. Häufig steckt kein einzelner Defekt dahinter,…

Interner Route Leak: Signale und Response-Plan

Ein sauberer Umgang mit Interner Route Leak: Signale und Response-Plan ist für den stabilen Netzbetrieb genauso wichtig wie Redundanz, Monitoring und Change-Disziplin. Der kritische Punkt: Ein interner Route Leak kündigt sich selten mit einem einzigen klaren Alarm an. Meistens treten mehrere scheinbar unabhängige Symptome gleichzeitig auf, etwa plötzliche Pfadänderungen, unerwarteter Ost-West-Traffic, CPU-Spitzen auf Route-Reflektoren, starkes…

VRF-Misroute: Case Study „Tenant auf dem falschen Pfad“

Die Analyse VRF-Misroute: Case Study „Tenant auf dem falschen Pfad“ ist in modernen Multi-Tenant-Netzen ein zentraler Baustein für stabile Servicequalität. In der Praxis entsteht eine Misroute selten als spektakulärer Totalausfall, sondern als schleichendes Routing-Fehlverhalten: Ein Tenant erreicht Ziele mit erhöhter Latenz, einzelne Anwendungen sind sporadisch nicht erreichbar, Rückwege wirken asymmetrisch, Security-Policies greifen „unerwartet“ oder Traffic…

ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist

Ein typisches ECMP-Issue: Warum nur ein Teil des Traffics kaputt ist gehört zu den irritierendsten Fehlerbildern im Netzwerkbetrieb. Aus Sicht von Anwendern wirkt die Störung „zufällig“: Manche Verbindungen funktionieren stabil, andere brechen reproduzierbar ab, Downloads laufen mal schnell und mal gar nicht, API-Calls liefern eine gemischte Quote aus Erfolgen und Timeouts. Genau dieses Muster führt…