Streaming Telemetry: gNMI, sFlow und High-Frequency Metrics

Red Snapper

4 weeks ago

Streaming Telemetry hat die Art verändert, wie Netzwerkteams Performance-Probleme erkennen und beheben: Statt alle fünf Minuten per SNMP einen Zähler abzufragen und anschließend zu raten, was dazwischen passiert ist, liefern moderne Telemetrie-Ansätze Daten in hoher Frequenz, oft sekunden- oder sogar subsekundengenau. Genau hier spielen gNMI, sFlow und High-Frequency Metrics ihre Stärken aus. In der Praxis bedeutet das: Microbursts werden sichtbar, Queue-Drops lassen sich zeitlich exakt korrelieren, Interface-Errors sind nicht mehr erst im Nachhinein auffällig, und Routing- oder Policy-Änderungen lassen sich unmittelbar im Zeitverlauf beobachten. Gleichzeitig bringt Streaming Telemetry neue Herausforderungen mit: Datenvolumen, Kardinalität, Zeitstempelqualität, Modellierung über YANG, Sicherheitsaspekte (mTLS, ACLs), sowie die Frage, welche Metriken wirklich „High Signal“ sind. Dieser Artikel erklärt, wie gNMI und sFlow funktionieren, wofür sie sich eignen, welche High-Frequency Metrics in modernen Netzen den größten Nutzen liefern und wie Sie eine Telemetrie-Pipeline so designen, dass sie im Incident nicht nur „bunte Grafiken“, sondern belastbare Beweise liefert.

Warum High-Frequency Metrics heute entscheidend sind

Viele Netzprobleme entstehen nicht als dauerhafte Überlast, sondern als kurze, hochintensive Ereignisse: Microbursts, kurze Congestion-Phasen, Queue-Überschreitungen, ECN-Markierungen, kurze CPU-Spikes, Control-Plane-Events oder kurze Link-Flaps. Wenn Sie nur im 60-Sekunden-Takt messen, „mitteln“ Sie diese Ereignisse weg. Das ist der klassische Grund, warum Teams trotz Monitoring sagen: „In den Grafiken sieht man nichts, aber die User hatten Störungen.“ High-Frequency Metrics verkürzen diese Blindheit.

Microbursts sichtbar machen: Queue-Occupancy und Drops können innerhalb von Millisekunden entstehen und wieder verschwinden.
RCA beschleunigen: Wenn Sie exakt wissen, wann Drops, Errors oder Route-Changes auftreten, können Sie Ursache und Wirkung korrelieren.
Validierung von Fixes: Shaping/QoS-Änderungen, ECMP-Anpassungen oder Buffer-Tuning lassen sich sofort im Zeitverlauf überprüfen.

Begriffe und Abgrenzung: Streaming Telemetry vs. klassische Polling-Modelle

Klassisches Polling (SNMP, CLI-Scrapes) fragt periodisch Werte ab. Streaming Telemetry schiebt Updates ereignisgetrieben oder in kurzen Intervallen an einen Collector. Der Unterschied ist nicht nur „schneller“, sondern auch strukturell: Sie bekommen oft modellierte Daten (YANG), klare Pfade zu Metriken, konsistente Zeitstempel und die Möglichkeit, nur Änderungen zu übertragen.

Polling: Pull, Intervall, Gefahr von Alias/Effekten durch Aggregation, begrenzte Semantik.
Streaming: Push/Subscribe, höhere Frequenz, häufig modelliert (YANG), besser für Korrelation und Automatisierung.

gNMI in der Praxis: Subscribe statt Scrape

gNMI (gRPC Network Management Interface) ist ein standardisiertes Protokoll, das auf gRPC basiert und insbesondere in modernen Netzbetriebssystemen verbreitet ist. gNMI wird typischerweise zusammen mit OpenConfig YANG-Modellen verwendet, um Metriken und Konfigurationen konsistent abzubilden. In vielen Telemetrie-Designs ist gNMI der „präzise“ Kanal für Zustände, Zähler und Ereignisse.

Subscribe-Modi: on-change (bei Änderung), sample (periodisch), poll (auf Abruf).
Struktur: Daten sind über Pfade organisiert (z. B. Interface-Counters, BGP-Neighbor-State).
Transport: gRPC, häufig mit mTLS und klarer Authentifizierung/Autorisierung.

Als Einstieg in OpenConfig-Modelle und die Idee der modellgetriebenen Telemetrie ist der Anchor-Text OpenConfig hilfreich. Für gNMI selbst ist die Spezifikation über den Anchor-Text gNMI Spezifikation (GitHub) eine gute Referenz.

Welche gNMI-Daten im Troubleshooting den größten Wert liefern

Interface Counters: Errors, discards, CRC, output drops, rate, utilization – aber in hoher Frequenz und pro Interface.
Queue/Buffer-Metriken: Queue occupancy, tail drops, WRED/ECN – entscheidend für Latenzspitzen und Loss.
Control Plane: CPU/Memory, Prozesszustände, Routing-Protokoll-States, RIB/FIB-Änderungen.
Event-Signale: Link up/down, BGP session changes, OSPF adjacency events, LACP state.

Fallstricke bei gNMI-Implementierungen

Modellinkonsistenzen: Nicht jedes Gerät implementiert alle OpenConfig-Pfade identisch; Vendor-spezifische Erweiterungen sind üblich.
Zeitstempel: Ohne saubere Zeitbasis (NTP/PTP) verlieren High-Frequency Daten an Wert, weil Korrelation unscharf wird.
Sampling-Last: Sehr hohe Frequenzen auf vielen Pfaden können die Control Plane belasten, wenn das Gerät nicht gut optimiert ist.

sFlow: Sampling, aber extrem skalierbar

sFlow ist ein etabliertes Verfahren, das Paket-Sampling (Packet Samples) und Counter-Sampling kombiniert. Anders als NetFlow/IPFIX, das Flows aggregiert, liefert sFlow Stichproben einzelner Pakete (Header) plus periodische Interface-Counters. Dadurch ist sFlow besonders attraktiv für hochskalierte L2/L3-Umgebungen, Datacenter-Fabrics und Campus-Netze mit vielen Switches, in denen vollständige Flow-Erfassung teuer wäre.

Paket-Sampling: Nur jedes n-te Paket wird gesampelt und als Sample exportiert.
Counter-Sampling: Interface- und manchmal Queue-Counters werden periodisch exportiert.
Vorteil: Sehr geringer Overhead pro Gerät, große Flächenabdeckung möglich.

Als Referenz und Einstieg ist der Anchor-Text sFlow.org nützlich, inklusive Dokumentation und Praxisbeispielen.

Was sFlow im Incident besonders gut kann

Top Talker unter hoher Last: Auch mit Sampling können Sie dominierende Quellen/Ziele oft zuverlässig identifizieren.
East-West Traffic sichtbar machen: Gerade in L2/L3-Fabrics liefert sFlow schnelle Sicht auf „wer spricht mit wem“.
DDoS/Scan-Indizien: Hohe Rate bestimmter Protokolle/Ports wird sichtbar, ohne dass Sie überall Captures brauchen.

Die Grenzen von sFlow, die Sie kennen müssen

Sampling ist Statistik: Kleine Flows oder seltene Ereignisse können untergehen; Aussagen müssen probabilistisch interpretiert werden.
Keine vollständige Session-Sicht: Sie sehen Paketsamples, nicht zwingend komplette Handshakes oder Retransmission-Ketten.
Für RCA oft Ergänzung nötig: sFlow zeigt „wo“ und „wer“, Packet Capture oder gNMI zeigt „warum“.

High-Frequency Metrics: Welche Metriken wirklich „High Signal“ sind

Der häufigste Fehler in Telemetrie-Projekten ist „alles sammeln“. High-Frequency Telemetry muss kuratiert sein: Wenige Metriken, die schnell erklären, ob Sie ein Congestion-, Hardware-, Control-Plane- oder Policy-Problem haben. Eine bewährte Auswahl ist die Kombination aus Rate, Queueing und Errors.

Kategorie 1: Congestion und Queueing

Queue occupancy (Bytes/Packets): idealerweise per Queue und per Interface.
Drops nach Drop-Typ: tail drop, WRED/RED, policer drops, buffer drops (wenn verfügbar).
ECN-Markierungen: Indiz für Congestion ohne Loss (falls im Netz genutzt).

Kategorie 2: Interface-Gesundheit

CRC/Frame Errors: klassische Indizien für physische Probleme (Kabel/Optik/DOM, FEC).
Discards/Output drops: oft Congestion oder Buffer-Themen, aber auch Policer.
Link flap counters: kurze Flaps korrelieren stark mit BGP/OSPF Events und „sporadischen“ Ausfällen.

Kategorie 3: Control Plane und Protokoll-States

BGP/OSPF/IS-IS Adjacency State: Up/Down, Flapping, Timer-Events.
CPU/Memory: Peaks korrelieren oft mit Control-Plane-Stürmen, TCAM/ACL-Updates oder Telemetrie-Overhead.
RIB/FIB Changes: Änderungen an Next Hop/ECMP-Set erklären Pfadwechsel und asymmetrische Routen.

Design einer Streaming-Telemetry-Pipeline: vom Device bis zum Dashboard

Damit Streaming Telemetry im Incident hilft, müssen Sie die Pipeline wie ein Produktionssystem behandeln: zuverlässig, skalierbar, sicher und beobachtbar. Es reicht nicht, „irgendwo einen Collector“ zu starten.

Collector/Receiver: nimmt gNMI Streams und sFlow Datagramme entgegen, validiert Zeitstempel und normalisiert Felder.
Transport-Sicherheit: gNMI typischerweise per mTLS; sFlow oft UDP-basiert, daher Segmentierung/ACLs und ggf. IPsec innerhalb sensibler Zonen.
Storage: Timeseries-DB für Metriken, ggf. separates System für Samples/Metadaten.
Visualisierung: Dashboards müssen Incident-Fragen beantworten (Queue-Drops, Interface-Errors, Top Talkers, Event-Timeline).
Alerting: Grenzwerte und Anomalie-Erkennung auf hochfrequenten Daten, ohne Alarmflut.

Kardinalität: Das größte praktische Problem in High-Frequency Telemetry

Hohe Frequenz plus viele Dimensionen (Interface, Queue, DSCP, VRF, Neighbor, Policy) kann Datenbanken und Dashboards sprengen. Kardinalität ist daher ein Designparameter.

Dimensionalität bewusst wählen: Nicht jede Metrik braucht alle Labels.
Aggregation strategisch: Manche Signale brauchen High-Frequency nur an Hotspots (WAN-Edges, Uplinks), nicht auf jedem Access-Port.
Sampling in Metriken: Für manche Counters reicht 5s statt 1s – High-Frequency nur dort, wo Microbursts relevant sind.

Praxis-Workflows: Streaming Telemetry als Troubleshooting-Beschleuniger

Der Nutzen entsteht, wenn Sie standardisierte Workflows definieren. Die folgenden Muster funktionieren in vielen Netzen unabhängig vom Hersteller.

Workflow 1: Latenzspitzen zwischen Queueing und Routing unterscheiden

Signal A: Queue occupancy und drops steigen synchron mit Latenzspitzen → Congestion/Buffering wahrscheinlich.
Signal B: Keine Queue-Signale, aber Pfad-/Next-Hop-Changes oder ECMP-Shift → Routing/ECMP/Policy wahrscheinlich.
Nächster Schritt: gezielter Packet Capture oder TWAMP/Ping-Messung auf dem betroffenen Pfad.

Workflow 2: „Es flappt“ – Link, LACP oder Routing-Protokoll?

Link Counters: Link up/down, errors, optics warnings.
LACP State: Member changes, LAG split events.
BGP/OSPF Events: session down/up korreliert zeitlich mit Link/LACP?
Nächster Schritt: Interface-Forensik (DOM/FEC), Kabel/Optik prüfen, ggf. Packet Capture für Control-Plane.

Workflow 3: DDoS oder „nur“ ein internes Problem?

sFlow Samples: zeigen Protokoll/Port-Muster, Top Sources/Destinations.
gNMI Counters: PPS/CPU/Queue-Drops auf Edge-Interfaces.
Korrelation: Steigen Drops und CPU gleichzeitig? Gibt es ungewöhnliche Zielport-Streuung?
Nächster Schritt: Mitigation (ACL/RTBH/Flowspec je nach Umfeld) und gezielte Captures für Signaturbeweis.

gNMI und sFlow kombinieren: ein robustes Gesamtbild

Viele Teams stellen gNMI gegen sFlow als „entweder/oder“. In der Praxis ist die Kombination besonders stark:

gNMI liefert Präzision: exakte Queue- und Interface-Metriken, Zustände, Events.
sFlow liefert Breite: skalierbare Sicht auf Traffic-Muster und Top Talkers über viele Switches.
Gemeinsame Timeline: Wenn Sie beide Datenquellen zeitlich korrelieren, erkennen Sie, welcher Traffic (sFlow) die Congestion (gNMI) auslöst.

Validierung: Wie Sie Telemetrie gegen die Realität prüfen

Streaming Telemetry ist nur hilfreich, wenn sie vertrauenswürdig ist. Eine regelmäßige Validierung verhindert, dass Sie im Incident falsche Schlüsse ziehen.

Counter-Abgleich: Interface-Bytes/Packets aus gNMI gegen CLI/SNMP (stichprobenartig) plausibilisieren.
sFlow Sampling-Faktor prüfen: Stimmt die hochgerechnete Last grob mit Interface-Countern überein?
Zeitstempel prüfen: Drift zwischen Geräten erkennen; ohne saubere Zeit sind Korrelationen wertlos.
Ground Truth via PCAP: Bei kritischen Incidents einen gezielten Packet Capture an einem Hotspot machen, um Muster zu bestätigen.

Für PCAP-Analyse sind die Wireshark Dokumentation und die tcpdump Manpage praktische Referenzen.

Runbook-Baustein: Streaming Telemetry im Incident in 15 Minuten nutzen

Minute 0–3: Zeitfenster und betroffene Segmente festlegen (Interfaces, Standorte, Dienste). Erste Sicht: Queue-Drops/Occupancy und Interface-Errors per High-Frequency Metrics.
Minute 3–6: Events korrelieren: Link/LACP/Protokollzustände (BGP/OSPF) und CPU-Peaks. Hypothese bilden: Congestion vs. Control-Plane vs. Physical.
Minute 6–9: sFlow-Sicht: Top Talkers/Protokolle/Ports im gleichen Zeitfenster. Prüfen, ob ein Traffic-Muster den Peak erklärt.
Minute 9–12: Pfad-/Routing-Indizien: Next-Hop/ECMP-Änderungen (falls verfügbar) und Interface-Richtungen (in/out).
Minute 12–15: Zielmessung starten: gezielter Packet Capture an 1–2 Hotspots, um die Hypothese zu beweisen; oder unmittelbare Mitigation (QoS/Shaping/Rate-Limits) und danach Verifikation in den High-Frequency Metrics.

Weiterführende Quellen

OpenConfig als Einstieg in modellgetriebene Telemetrie und YANG-Modelle
gNMI Spezifikation (GitHub) für Protokoll-Details und Subscribe-Modelle
sFlow.org für Konzept, Spezifikationen und Praxisressourcen zu sFlow
Wireshark Dokumentation für die Verifikation von Hypothesen per Packet Capture
tcpdump Manpage für produktionssichere Captures und Ring Buffer zur Incident-Verifikation

Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte

Cisco Networking • CCNA • Packet Tracer • Network Configuration

Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.

Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.

Leistungsumfang:

Netzwerkdesign & Topologie-Planung
Router- & Switch-Konfiguration (Cisco IOS)
VLAN, Inter-VLAN Routing
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
NAT, ACL, DHCP, DNS-Konfiguration
Troubleshooting & Netzwerkoptimierung
Packet Tracer Projektentwicklung & Dokumentation
CCNA Lern- & Praxisunterstützung

Lieferumfang:

Konfigurationsdateien
Packet-Tracer-Dateien (.pkt)
Netzwerkdokumentation
Schritt-für-Schritt-Erklärungen (auf Wunsch)

Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert

CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.