Streaming Telemetry hat die Art verändert, wie Netzwerkteams Performance-Probleme erkennen und beheben: Statt alle fünf Minuten per SNMP einen Zähler abzufragen und anschließend zu raten, was dazwischen passiert ist, liefern moderne Telemetrie-Ansätze Daten in hoher Frequenz, oft sekunden- oder sogar subsekundengenau. Genau hier spielen gNMI, sFlow und High-Frequency Metrics ihre Stärken aus. In der Praxis bedeutet das: Microbursts werden sichtbar, Queue-Drops lassen sich zeitlich exakt korrelieren, Interface-Errors sind nicht mehr erst im Nachhinein auffällig, und Routing- oder Policy-Änderungen lassen sich unmittelbar im Zeitverlauf beobachten. Gleichzeitig bringt Streaming Telemetry neue Herausforderungen mit: Datenvolumen, Kardinalität, Zeitstempelqualität, Modellierung über YANG, Sicherheitsaspekte (mTLS, ACLs), sowie die Frage, welche Metriken wirklich „High Signal“ sind. Dieser Artikel erklärt, wie gNMI und sFlow funktionieren, wofür sie sich eignen, welche High-Frequency Metrics in modernen Netzen den größten Nutzen liefern und wie Sie eine Telemetrie-Pipeline so designen, dass sie im Incident nicht nur „bunte Grafiken“, sondern belastbare Beweise liefert.
Warum High-Frequency Metrics heute entscheidend sind
Viele Netzprobleme entstehen nicht als dauerhafte Überlast, sondern als kurze, hochintensive Ereignisse: Microbursts, kurze Congestion-Phasen, Queue-Überschreitungen, ECN-Markierungen, kurze CPU-Spikes, Control-Plane-Events oder kurze Link-Flaps. Wenn Sie nur im 60-Sekunden-Takt messen, „mitteln“ Sie diese Ereignisse weg. Das ist der klassische Grund, warum Teams trotz Monitoring sagen: „In den Grafiken sieht man nichts, aber die User hatten Störungen.“ High-Frequency Metrics verkürzen diese Blindheit.
- Microbursts sichtbar machen: Queue-Occupancy und Drops können innerhalb von Millisekunden entstehen und wieder verschwinden.
- RCA beschleunigen: Wenn Sie exakt wissen, wann Drops, Errors oder Route-Changes auftreten, können Sie Ursache und Wirkung korrelieren.
- Validierung von Fixes: Shaping/QoS-Änderungen, ECMP-Anpassungen oder Buffer-Tuning lassen sich sofort im Zeitverlauf überprüfen.
Begriffe und Abgrenzung: Streaming Telemetry vs. klassische Polling-Modelle
Klassisches Polling (SNMP, CLI-Scrapes) fragt periodisch Werte ab. Streaming Telemetry schiebt Updates ereignisgetrieben oder in kurzen Intervallen an einen Collector. Der Unterschied ist nicht nur „schneller“, sondern auch strukturell: Sie bekommen oft modellierte Daten (YANG), klare Pfade zu Metriken, konsistente Zeitstempel und die Möglichkeit, nur Änderungen zu übertragen.
- Polling: Pull, Intervall, Gefahr von Alias/Effekten durch Aggregation, begrenzte Semantik.
- Streaming: Push/Subscribe, höhere Frequenz, häufig modelliert (YANG), besser für Korrelation und Automatisierung.
gNMI in der Praxis: Subscribe statt Scrape
gNMI (gRPC Network Management Interface) ist ein standardisiertes Protokoll, das auf gRPC basiert und insbesondere in modernen Netzbetriebssystemen verbreitet ist. gNMI wird typischerweise zusammen mit OpenConfig YANG-Modellen verwendet, um Metriken und Konfigurationen konsistent abzubilden. In vielen Telemetrie-Designs ist gNMI der „präzise“ Kanal für Zustände, Zähler und Ereignisse.
- Subscribe-Modi: on-change (bei Änderung), sample (periodisch), poll (auf Abruf).
- Struktur: Daten sind über Pfade organisiert (z. B. Interface-Counters, BGP-Neighbor-State).
- Transport: gRPC, häufig mit mTLS und klarer Authentifizierung/Autorisierung.
Als Einstieg in OpenConfig-Modelle und die Idee der modellgetriebenen Telemetrie ist der Anchor-Text OpenConfig hilfreich. Für gNMI selbst ist die Spezifikation über den Anchor-Text gNMI Spezifikation (GitHub) eine gute Referenz.
Welche gNMI-Daten im Troubleshooting den größten Wert liefern
- Interface Counters: Errors, discards, CRC, output drops, rate, utilization – aber in hoher Frequenz und pro Interface.
- Queue/Buffer-Metriken: Queue occupancy, tail drops, WRED/ECN – entscheidend für Latenzspitzen und Loss.
- Control Plane: CPU/Memory, Prozesszustände, Routing-Protokoll-States, RIB/FIB-Änderungen.
- Event-Signale: Link up/down, BGP session changes, OSPF adjacency events, LACP state.
Fallstricke bei gNMI-Implementierungen
- Modellinkonsistenzen: Nicht jedes Gerät implementiert alle OpenConfig-Pfade identisch; Vendor-spezifische Erweiterungen sind üblich.
- Zeitstempel: Ohne saubere Zeitbasis (NTP/PTP) verlieren High-Frequency Daten an Wert, weil Korrelation unscharf wird.
- Sampling-Last: Sehr hohe Frequenzen auf vielen Pfaden können die Control Plane belasten, wenn das Gerät nicht gut optimiert ist.
sFlow: Sampling, aber extrem skalierbar
sFlow ist ein etabliertes Verfahren, das Paket-Sampling (Packet Samples) und Counter-Sampling kombiniert. Anders als NetFlow/IPFIX, das Flows aggregiert, liefert sFlow Stichproben einzelner Pakete (Header) plus periodische Interface-Counters. Dadurch ist sFlow besonders attraktiv für hochskalierte L2/L3-Umgebungen, Datacenter-Fabrics und Campus-Netze mit vielen Switches, in denen vollständige Flow-Erfassung teuer wäre.
- Paket-Sampling: Nur jedes n-te Paket wird gesampelt und als Sample exportiert.
- Counter-Sampling: Interface- und manchmal Queue-Counters werden periodisch exportiert.
- Vorteil: Sehr geringer Overhead pro Gerät, große Flächenabdeckung möglich.
Als Referenz und Einstieg ist der Anchor-Text sFlow.org nützlich, inklusive Dokumentation und Praxisbeispielen.
Was sFlow im Incident besonders gut kann
- Top Talker unter hoher Last: Auch mit Sampling können Sie dominierende Quellen/Ziele oft zuverlässig identifizieren.
- East-West Traffic sichtbar machen: Gerade in L2/L3-Fabrics liefert sFlow schnelle Sicht auf „wer spricht mit wem“.
- DDoS/Scan-Indizien: Hohe Rate bestimmter Protokolle/Ports wird sichtbar, ohne dass Sie überall Captures brauchen.
Die Grenzen von sFlow, die Sie kennen müssen
- Sampling ist Statistik: Kleine Flows oder seltene Ereignisse können untergehen; Aussagen müssen probabilistisch interpretiert werden.
- Keine vollständige Session-Sicht: Sie sehen Paketsamples, nicht zwingend komplette Handshakes oder Retransmission-Ketten.
- Für RCA oft Ergänzung nötig: sFlow zeigt „wo“ und „wer“, Packet Capture oder gNMI zeigt „warum“.
High-Frequency Metrics: Welche Metriken wirklich „High Signal“ sind
Der häufigste Fehler in Telemetrie-Projekten ist „alles sammeln“. High-Frequency Telemetry muss kuratiert sein: Wenige Metriken, die schnell erklären, ob Sie ein Congestion-, Hardware-, Control-Plane- oder Policy-Problem haben. Eine bewährte Auswahl ist die Kombination aus Rate, Queueing und Errors.
Kategorie 1: Congestion und Queueing
- Queue occupancy (Bytes/Packets): idealerweise per Queue und per Interface.
- Drops nach Drop-Typ: tail drop, WRED/RED, policer drops, buffer drops (wenn verfügbar).
- ECN-Markierungen: Indiz für Congestion ohne Loss (falls im Netz genutzt).
Kategorie 2: Interface-Gesundheit
- CRC/Frame Errors: klassische Indizien für physische Probleme (Kabel/Optik/DOM, FEC).
- Discards/Output drops: oft Congestion oder Buffer-Themen, aber auch Policer.
- Link flap counters: kurze Flaps korrelieren stark mit BGP/OSPF Events und „sporadischen“ Ausfällen.
Kategorie 3: Control Plane und Protokoll-States
- BGP/OSPF/IS-IS Adjacency State: Up/Down, Flapping, Timer-Events.
- CPU/Memory: Peaks korrelieren oft mit Control-Plane-Stürmen, TCAM/ACL-Updates oder Telemetrie-Overhead.
- RIB/FIB Changes: Änderungen an Next Hop/ECMP-Set erklären Pfadwechsel und asymmetrische Routen.
Design einer Streaming-Telemetry-Pipeline: vom Device bis zum Dashboard
Damit Streaming Telemetry im Incident hilft, müssen Sie die Pipeline wie ein Produktionssystem behandeln: zuverlässig, skalierbar, sicher und beobachtbar. Es reicht nicht, „irgendwo einen Collector“ zu starten.
- Collector/Receiver: nimmt gNMI Streams und sFlow Datagramme entgegen, validiert Zeitstempel und normalisiert Felder.
- Transport-Sicherheit: gNMI typischerweise per mTLS; sFlow oft UDP-basiert, daher Segmentierung/ACLs und ggf. IPsec innerhalb sensibler Zonen.
- Storage: Timeseries-DB für Metriken, ggf. separates System für Samples/Metadaten.
- Visualisierung: Dashboards müssen Incident-Fragen beantworten (Queue-Drops, Interface-Errors, Top Talkers, Event-Timeline).
- Alerting: Grenzwerte und Anomalie-Erkennung auf hochfrequenten Daten, ohne Alarmflut.
Kardinalität: Das größte praktische Problem in High-Frequency Telemetry
Hohe Frequenz plus viele Dimensionen (Interface, Queue, DSCP, VRF, Neighbor, Policy) kann Datenbanken und Dashboards sprengen. Kardinalität ist daher ein Designparameter.
- Dimensionalität bewusst wählen: Nicht jede Metrik braucht alle Labels.
- Aggregation strategisch: Manche Signale brauchen High-Frequency nur an Hotspots (WAN-Edges, Uplinks), nicht auf jedem Access-Port.
- Sampling in Metriken: Für manche Counters reicht 5s statt 1s – High-Frequency nur dort, wo Microbursts relevant sind.
Praxis-Workflows: Streaming Telemetry als Troubleshooting-Beschleuniger
Der Nutzen entsteht, wenn Sie standardisierte Workflows definieren. Die folgenden Muster funktionieren in vielen Netzen unabhängig vom Hersteller.
Workflow 1: Latenzspitzen zwischen Queueing und Routing unterscheiden
- Signal A: Queue occupancy und drops steigen synchron mit Latenzspitzen → Congestion/Buffering wahrscheinlich.
- Signal B: Keine Queue-Signale, aber Pfad-/Next-Hop-Changes oder ECMP-Shift → Routing/ECMP/Policy wahrscheinlich.
- Nächster Schritt: gezielter Packet Capture oder TWAMP/Ping-Messung auf dem betroffenen Pfad.
Workflow 2: „Es flappt“ – Link, LACP oder Routing-Protokoll?
- Link Counters: Link up/down, errors, optics warnings.
- LACP State: Member changes, LAG split events.
- BGP/OSPF Events: session down/up korreliert zeitlich mit Link/LACP?
- Nächster Schritt: Interface-Forensik (DOM/FEC), Kabel/Optik prüfen, ggf. Packet Capture für Control-Plane.
Workflow 3: DDoS oder „nur“ ein internes Problem?
- sFlow Samples: zeigen Protokoll/Port-Muster, Top Sources/Destinations.
- gNMI Counters: PPS/CPU/Queue-Drops auf Edge-Interfaces.
- Korrelation: Steigen Drops und CPU gleichzeitig? Gibt es ungewöhnliche Zielport-Streuung?
- Nächster Schritt: Mitigation (ACL/RTBH/Flowspec je nach Umfeld) und gezielte Captures für Signaturbeweis.
gNMI und sFlow kombinieren: ein robustes Gesamtbild
Viele Teams stellen gNMI gegen sFlow als „entweder/oder“. In der Praxis ist die Kombination besonders stark:
- gNMI liefert Präzision: exakte Queue- und Interface-Metriken, Zustände, Events.
- sFlow liefert Breite: skalierbare Sicht auf Traffic-Muster und Top Talkers über viele Switches.
- Gemeinsame Timeline: Wenn Sie beide Datenquellen zeitlich korrelieren, erkennen Sie, welcher Traffic (sFlow) die Congestion (gNMI) auslöst.
Validierung: Wie Sie Telemetrie gegen die Realität prüfen
Streaming Telemetry ist nur hilfreich, wenn sie vertrauenswürdig ist. Eine regelmäßige Validierung verhindert, dass Sie im Incident falsche Schlüsse ziehen.
- Counter-Abgleich: Interface-Bytes/Packets aus gNMI gegen CLI/SNMP (stichprobenartig) plausibilisieren.
- sFlow Sampling-Faktor prüfen: Stimmt die hochgerechnete Last grob mit Interface-Countern überein?
- Zeitstempel prüfen: Drift zwischen Geräten erkennen; ohne saubere Zeit sind Korrelationen wertlos.
- Ground Truth via PCAP: Bei kritischen Incidents einen gezielten Packet Capture an einem Hotspot machen, um Muster zu bestätigen.
Für PCAP-Analyse sind die Wireshark Dokumentation und die tcpdump Manpage praktische Referenzen.
Runbook-Baustein: Streaming Telemetry im Incident in 15 Minuten nutzen
- Minute 0–3: Zeitfenster und betroffene Segmente festlegen (Interfaces, Standorte, Dienste). Erste Sicht: Queue-Drops/Occupancy und Interface-Errors per High-Frequency Metrics.
- Minute 3–6: Events korrelieren: Link/LACP/Protokollzustände (BGP/OSPF) und CPU-Peaks. Hypothese bilden: Congestion vs. Control-Plane vs. Physical.
- Minute 6–9: sFlow-Sicht: Top Talkers/Protokolle/Ports im gleichen Zeitfenster. Prüfen, ob ein Traffic-Muster den Peak erklärt.
- Minute 9–12: Pfad-/Routing-Indizien: Next-Hop/ECMP-Änderungen (falls verfügbar) und Interface-Richtungen (in/out).
- Minute 12–15: Zielmessung starten: gezielter Packet Capture an 1–2 Hotspots, um die Hypothese zu beweisen; oder unmittelbare Mitigation (QoS/Shaping/Rate-Limits) und danach Verifikation in den High-Frequency Metrics.
Weiterführende Quellen
- OpenConfig als Einstieg in modellgetriebene Telemetrie und YANG-Modelle
- gNMI Spezifikation (GitHub) für Protokoll-Details und Subscribe-Modelle
- sFlow.org für Konzept, Spezifikationen und Praxisressourcen zu sFlow
- Wireshark Dokumentation für die Verifikation von Hypothesen per Packet Capture
- tcpdump Manpage für produktionssichere Captures und Ring Buffer zur Incident-Verifikation
Cisco Netzwerkdesign, CCNA Support & Packet Tracer Projekte
Cisco Networking • CCNA • Packet Tracer • Network Configuration
Ich biete professionelle Unterstützung im Bereich Cisco Computer Networking, einschließlich CCNA-relevanter Konfigurationen, Netzwerkdesign und komplexer Packet-Tracer-Projekte. Die Lösungen werden praxisnah, strukturiert und nach aktuellen Netzwerkstandards umgesetzt.
Diese Dienstleistung eignet sich für Unternehmen, IT-Teams, Studierende sowie angehende CCNA-Kandidaten, die fundierte Netzwerkstrukturen planen oder bestehende Infrastrukturen optimieren möchten. Finden Sie mich auf Fiverr.
Leistungsumfang:
-
Netzwerkdesign & Topologie-Planung
-
Router- & Switch-Konfiguration (Cisco IOS)
-
VLAN, Inter-VLAN Routing
-
OSPF, RIP, EIGRP (Grundlagen & Implementierung)
-
NAT, ACL, DHCP, DNS-Konfiguration
-
Troubleshooting & Netzwerkoptimierung
-
Packet Tracer Projektentwicklung & Dokumentation
-
CCNA Lern- & Praxisunterstützung
Lieferumfang:
-
Konfigurationsdateien
-
Packet-Tracer-Dateien (.pkt)
-
Netzwerkdokumentation
-
Schritt-für-Schritt-Erklärungen (auf Wunsch)
Arbeitsweise:Strukturiert • Praxisorientiert • Zuverlässig • Technisch fundiert
CTA:
Benötigen Sie professionelle Unterstützung im Cisco Networking oder für ein CCNA-Projekt?
Kontaktieren Sie mich gerne für eine Projektanfrage oder ein unverbindliches Gespräch. Finden Sie mich auf Fiverr.












