NetFlow/IPFIX Placement: Topologie für Traffic Visibility planen

Red Snapper

3 months ago

NetFlow/IPFIX Placement ist einer der unterschätztesten Hebel, um in großen Provider- und Enterprise-Netzen echte Traffic Visibility zu erreichen. Viele Teams aktivieren Flow-Export „irgendwo“ und stellen später fest: Die Daten sind teuer, lückenhaft, schwer zu korrelieren – oder sie fehlen genau im Incident. Der Grund ist fast immer topologisch: Flow-Daten sind kein Selbstzweck, sondern ein Abbild von Pfaden, Engpässen und Servicegrenzen. Wenn Sie NetFlow/IPFIX an den falschen Punkten sammeln, sehen Sie entweder nur einen Teil der Wahrheit (z. B. nur Core-Transit, aber keine Edge-Services) oder Sie erzeugen riesige Datenmengen ohne Kontext (z. B. überall im Access). Ein professionelles Design behandelt Flow Visibility daher als Architektur: Welche Fragen sollen Flows beantworten (Capacity, DDoS, Peering, CGNAT, QoS, Customer Troubleshooting)? Wo liegen die „Choke Points“, an denen wenige Interfaces viel Wahrheit enthalten? Wie werden Sampling, Export-Transport, Collector-Topologie und Datenmodelle so gebaut, dass Betriebsteams schnelle Antworten bekommen – ohne dass Router-CPU, Link-Overhead oder Storagekosten explodieren? Dieser Artikel zeigt, wie Sie NetFlow/IPFIX Placement topologisch planen: mit klaren Messpunkten, sinnvollen Sampling-Strategien, robusten Telemetry-Pfaden und Datenmodellen, die Traffic, Peering und Services erklärbar machen.

Warum Flow Placement eine Topologieentscheidung ist

Flows sind ein perspektivisches Messinstrument: Sie zeigen, was ein bestimmtes Gerät oder Interface gesehen hat – nicht „das ganze Netz“. In einer modernen Provider-Topologie mit ECMP, Segment Routing, EVPN, Service Chains und regionalen Exits kann derselbe Datenstrom je nach Policy und Failover sehr unterschiedliche Pfade nehmen. Daraus folgt: Flow Placement muss Pfade und Domains abbilden. Sie platzieren Flow-Export dort, wo Entscheidungen fallen (Edge/Peering) und dort, wo Engpässe entstehen (Aggregation/Backbone-Uplinks) – nicht dort, wo es „einfach“ ist.

Pfad-Realität: ECMP und TE verteilen Traffic; ein einzelner Core-Link zeigt nur einen Ausschnitt.
Service-Grenzen: CGNAT, Firewalls, DDoS-Scrubbing verändern Traffic; Flow-Daten müssen diese Punkte sichtbar machen.
Kosten-Nutzen: Access-Ports erzeugen enorme Flows, liefern aber oft wenig zusätzliche Erkenntnis.
Operational Impact: Gute Placement-Entscheidungen verkürzen MTTR, weil Ursachen schneller eingegrenzt werden.

Leitprinzip: Messen an „Choke Points“ und „Policy Points“

Choke Points sind Stellen, an denen viel Traffic durch wenige Interfaces läuft (z. B. Edge-Uplinks). Policy Points sind Stellen, an denen Routing/Serviceentscheidungen getroffen werden (z. B. Peering Edge, BNG/CGNAT Edge). Dort liefern Flows den höchsten Wert pro Byte.

NetFlow vs. IPFIX: Welche Telemetry Sie wirklich bekommen

Im Alltag werden NetFlow und IPFIX oft synonym verwendet, doch für das Design ist die Unterscheidung relevant: IPFIX ist ein standardisiertes, erweiterbares Format, das flexibel Felder exportieren kann (Templates), während „NetFlow“ häufig als Sammelbegriff für vendor-spezifische Varianten genutzt wird. Für Provider-Visibility zählt vor allem: Welche Felder können Sie exportieren (z. B. BGP Next-Hop, Interface-IDs, VLAN/VRF, MPLS Labels, NAT-Infos)? Und wie stabil ist die Template-/Collector-Kette?

Feldumfang: IPFIX kann sehr reichhaltig sein; mehr Felder bedeuten mehr Aussage, aber auch mehr Volumen.
Vendor-Details: Einige Plattformen liefern erweiterte Attribute (MPLS/SR, NAT, BGP) nur in bestimmten Exportprofilen.
Template-Management: IPFIX braucht sauberes Collector-Handling, sonst werden Records unbrauchbar.
Skalierung: Export-Rate, CPU-Overhead und Buffering müssen in Kapazitätsplanung einfließen.

Designregel: Erst Use Cases, dann Felder

Wenn Sie „alles exportieren“, explodieren Kosten und Komplexität. Definieren Sie zuerst, welche Entscheidungen Sie mit Flows treffen wollen (Peering-Optimierung, DDoS, Capacity), und wählen Sie dann gezielt Felder und Sampling.

Die wichtigsten Use Cases: Welche Sichtbarkeit brauchen Provider wirklich?

Flow Visibility ist am wertvollsten, wenn sie konkrete Betriebs- und Engineering-Fragen beantwortet. In Provider-Netzen sind das typischerweise wenige wiederkehrende Kategorien. Diese Kategorien sollten Ihr Placement bestimmen.

Capacity & Forecasting: Top Talkers, Traffic-Mix, Peak-Verhalten, Growth-Trends nach Region/PoP.
Interconnect/Peering: Welche ASNs nutzen welche Ports? Wo entstehen Hotspots? Wie viel Traffic ist PNI vs. IXP vs. Transit?
DDoS/Abuse: Anomalien, volumetrische Peaks, Reflection-Patterns, Ziel-/Quellprofile.
CGNAT/Subscriber: Traffic nach Subscriber-Klassen, App-Klassen, ggf. NAT-assoziierte Sicht (abhängig von Feldern).
QoS/Engpässe: Korrelation von Flow-Traffic mit Queue-Drops und Interface-Congestion.
Incident Triage: „Was hat sich geändert?“ – Flows vor/nach Routing- oder Policy-Events vergleichen.

Ein schneller Reality Check

Wenn Ihr Team im Incident nicht innerhalb weniger Minuten sagen kann, ob ein Problem Peering, Transit, CGNAT, DDoS oder ein regionaler Engpass ist, fehlt meist ein gut platziertes Flow-Set an den richtigen Kanten.

Placement-Strategie: Core, Metro, Edge, Services – wo Flows am meisten bringen

Ein gutes Flow-Design startet nicht mit „auf allen Interfaces an“. Es startet mit einer Messhierarchie. In vielen Netzen reichen wenige strategische Messpunkte, um 80–90% der notwendigen Sichtbarkeit zu erhalten. Danach wird gezielt ergänzt.

Internet/Peering Edge: Höchster ROI: zeigt Traffic-Mix, ASNs, Peering- vs. Transit-Anteile, Hotspots pro Port.
Transit Uplinks: Kritisch für Kosten und Failover; zeigt, wann Peering ausfällt oder Policies kippen.
Metro Aggregation Uplinks: Zeigt regionale Engpässe und Traffic-Schwerpunkte ohne Access-Noise.
Service Edges (BNG/PE/CGNAT): Zeigt servicebezogene Trafficprofile und hilft bei Kundentickets/Policy-Fragen.
Core (sparsam): Nützlich für Backbone-TE und ungewöhnliche Transitpfade, aber oft nur ergänzend.

Anti-Pattern: „Flows nur im Core“

Core-Flows zeigen häufig nur, dass Traffic irgendwo durch den Core ging. Sie beantworten selten „warum“ (Peering vs. Transit, welche Edge, welche Policy). Edge/Interconnect ist deshalb meist wichtiger als Core.

Flow Placement an der Internet Edge: IXPs, PNIs und Transit sauber abbilden

Für Internet Service Topology sind Flows an den Interconnect-Ports besonders wertvoll: Dort lassen sich Peering-Partner, ASNs, Traffic-Anteile und Port-Hotspots sichtbar machen. Wichtig ist, die Edge so zu instrumentieren, dass Sie nach Linkklasse und Region segmentieren können: IXP, PNI, Transit, DCI/Backhaul.

IXP Ports: Sichtbarkeit pro Fabric/Port; Congestion und Microbursts sind häufige Probleme.
PNIs: Präzise Sicht auf große Partner; Grundlage für Kapazitäts- und Upgrade-Trigger.
Transit Ports: Fallback-Verhalten sichtbar machen; Transit-Spikes als Symptom von Peering-Ausfällen erkennen.
Regionale Edges: Per-Region Flow-Export ermöglicht zu sehen, ob Traffic hairpint oder lokal ausbricht.

Designregel: Linkklasse als Pflicht-Label

Flow-Daten ohne Kontext (ist das IXP oder Transit?) sind operativ wenig wert. Taggen Sie Ports/Interfaces konsequent mit Linkklasse, Region, PoP und Provider/Peer.

Flow Placement in Service Chains: CGNAT, Firewalls, DDoS Scrubbing

Viele Provider-Probleme entstehen nicht im reinen Routing, sondern in Service Chains: CGNAT-Engpässe, Firewall-Bottlenecks, Scrubbing-Umlenkungen. Flow Placement muss diese Knoten sichtbar machen – sonst sieht man nur Symptome („Internet langsam“), aber nicht den Verursacher.

CGNAT Edge: Flows helfen bei Top Talkers, Abuse, App-Profilen; zusammen mit NAT-State-Telemetry sehr wirkungsvoll.
Firewall/Inspection: Flow-Traffic nach Zonen/VRF (wenn Felder verfügbar), um Bottlenecks und policybedingte Drops zu analysieren.
DDoS Scrubbing: Vorher/Nachher Flows an Umlenkpunkten zeigen Mitigation-Wirkung und Resttraffic.
Service Chaining Pfade: Flows an Ingress/Egress der Chain helfen, asymmetrische Pfade zu erkennen.

Wichtig: Flows ersetzen keine Drops- und Queue-Telemetry

Flows zeigen, wie viel Traffic „gesehen“ wurde, nicht unbedingt, wo Pakete gedroppt sind. Kombinieren Sie Flow-Visibility mit Queue-Drops, Interface-Errors und aktiven Pfadmessungen.

Sampling richtig planen: Genauigkeit, Kosten und „Blind Spots“

Sampling ist der Schlüssel, um Flow-Volumen beherrschbar zu halten. Gleichzeitig ist Sampling der häufigste Grund für falsche Schlüsse: zu grob gesampelt, und kleine, aber wichtige Flows verschwinden (z. B. Control-Traffic, Low-and-Slow-Angriffe). Die beste Strategie ist mehrstufig und topologieorientiert.

Edge fein, Core grob: An Engpässen und Policy Points höherer Detailgrad; im Core eher zur Trendbeobachtung.
Adaptive Sampling: Bei DDoS/Anomalien Sampling erhöhen, bei Normalbetrieb senken.
Stratified Sampling: Kritische VRFs/QoS-Klassen höher gewichten als Bulk.
Präzisionsfenster: Kurzzeitiges „High Fidelity“ Sampling bei Wartungen oder Incident-Triage.

Ein praktischer Kompromiss

Viele Betreiber fahren gut mit: Always-on Flow-Sampling an Edge-Ports (moderate Rate), grobem Sampling im Core, und Trigger-basiertem Hochdrehen bei Anomalien. Entscheidend ist, dass Sie Ihre „Blind Spots“ kennen und dokumentieren.

Telemetry-Pfade für Flow-Export: Collector-Topologie und Backpressure

Flow-Export erzeugt kontinuierlich Datenströme. Wenn Collector oder Transportpfade überlastet sind, verlieren Sie Datensätze oder erzeugen Backpressure. Deshalb sollte die Flow-Collector-Architektur regionalisiert werden: Edge Collectors nahe an PoPs, lokale Buffering-Fähigkeiten und kontrollierte Weiterleitung in zentrale Systeme.

Regionale Collectors: Reduzieren WAN-Last, begrenzen Failure Domains, fangen Peaks ab.
Buffering: Kurzzeitige Störungen oder Peak-Events dürfen nicht sofort zu Datenverlust führen.
Backpressure-Strategie: Klar definieren, ob bei Überlast gedroppt, gedrosselt oder degradiert wird.
Separater Telemetry-Pfad: Management-VRF/OOB, QoS-Priorisierung, damit Flow-Export im Incident nicht „mit untergeht“.

Designregel: Collector ist ein Produktionssystem

Collectors brauchen Kapazitätsplanung wie Router: CPU, Memory, Disk/Storage, Query-Last, Redundanz. Flow Visibility ist nur so gut wie der Collector.

Datenmodelle und Labels: Ohne Kontext sind Flows nur Zahlen

Flow Records entfalten ihren Wert erst, wenn sie in ein konsistentes Datenmodell gemappt sind: Welcher Router gehört zu welcher Region? Welches Interface ist Transit vs. IXP? Welche VRF ist Retail vs. Enterprise? Welche Circuit-ID entspricht welchem Kunden? Ohne diese Metadaten ist Reporting fragil und Incident-Triage langsam.

Topologie-Labels: Region, PoP, Rolle (Edge/Metro/Core), Device-Class.
Link-Labels: Linkklasse (IXP/PNI/Transit/DCI), Provider/Peer-AS, Circuit-ID, SRLG-Gruppe.
Service-Labels: VRF/Tenant, Produktklasse (Retail/Wholesale/Enterprise), QoS-Klasse (wenn ableitbar).
Change-Labels: Maintenance-Window, Change-ID, Deployment-Welle, um Vorher/Nachher sauber zu vergleichen.

Designregel: Metadaten müssen automatisch kommen

Manuelle Tagpflege skaliert nicht. Nutzen Sie Inventar-/IPAM-/CMDB-Daten oder standardisierte Naming-Konventionen, um Labels zuverlässig zu generieren.

Flow Placement für konkrete Fragen: „Welche Ports upgraden?“, „Wer verursacht Congestion?“, „Warum Transit-Spike?“

Ein gutes Flow-Design ist entscheidungsorientiert. Damit Flow Visibility nicht zum Datensumpf wird, sollten Sie die wichtigsten Entscheidungen an definierte Messpunkte binden.

Upgrade-Trigger: PNI/IXP-Port-Top Talkers + Queue-Drops + Peak-Auslastung → klare Upgradeentscheidung.
Transit-Kosten: Transit-Port-Flows nach ASN/Region → Peering-Kandidaten und Policy-Optimierung.
DDoS-Anomalien: Plötzliche Flow-Spitzen nach Ziel/Port/ASN → Trigger für Scrubbing/RTBH.
Regionale Performance: Metro-Uplink-Flows + Path-KPIs → lokalisieren, ob Problem in Access, Metro oder Edge liegt.

Evidence-by-Design: Flow-Daten als Nachweis

Flow Visibility ist nicht nur operativ, sondern auch strategisch: Sie können Investments (PNI, IXP, Backbone) mit Daten begründen und den Effekt von Policies mit Vorher/Nachher-Vergleichen belegen.

Typische Fallstricke und wie man sie vermeidet

Zu viele Quellen, keine Ordnung: Lösung: Choke Points priorisieren, schrittweise erweitern, klare Use Cases.
Sampling zu grob: Lösung: feinere Raten an Edge/Engpässen, adaptive/triggerbasierte Erhöhung.
Collector überlastet: Lösung: regionale Collectors, Buffering, Kapazitätsplanung, Backpressure-Regeln.
Kein Kontext: Lösung: Datenmodell mit Linkklasse/Region/PoP/VRF-Labels, automatische Metadaten.
Nur Core-Flows: Lösung: Interconnect/Edge priorisieren, Service Chains berücksichtigen.
Security ignoriert: Lösung: Management-VRF/OOB, RBAC, Retention, Audit und Datenminimierung.

Praktische Leitlinien: NetFlow/IPFIX Placement topologisch planen

Use Cases priorisieren: Peering/Transit, DDoS, Capacity, Service Chains, Incident Triage als Kernfragen definieren.
Messhierarchie bauen: Zuerst Internet/Peering Edge und Transit, dann Metro-Uplinks, dann Service Edges, Core nur ergänzend.
Sampling topologieorientiert: Engpässe und Policy Points fein, Core grob; adaptive/triggerbasierte Strategien nutzen.
Collector-Topologie regionalisieren: Edge Collectors mit Buffering, zentrale Aggregation für Langzeit-Analytics.
Telemetry-Pfad absichern: Management-VRF/OOB, QoS-Priorisierung, Redundanz, damit Flow-Export im Incident nicht ausfällt.
Datenmodell standardisieren: Region/PoP/Rolle/Linkklasse/Peer/VRF als Pflichtlabels, automatisch erzeugt.
Korrelation ermöglichen: Flows mit Queue-Drops, BGP-Events und Path-KPIs verbinden, um Ursachen schnell zu finden.
Governance definieren: Retention, RBAC, Exportprofile, Change-Prozess und Auditability als Standard.
Iterativ verbessern: Nach jedem Incident prüfen: Welche Sicht fehlte? Placement/Sampling gezielt nachschärfen.