Dual-Stack Probleme: Happy Eyeballs, DNS AAAA und Path Differences

Dual-Stack Probleme gehören zu den häufigsten Ursachen für „komische“ Connectivity-Fehler in modernen Netzen: Ein Dienst ist mal schnell, mal langsam, manche Nutzer können sich nicht anmelden, Downloads brechen ab, oder nur bestimmte Standorte melden Timeouts – während IPv4 und IPv6 einzeln betrachtet scheinbar funktionieren. Der Grund ist fast immer die Kombination aus drei Faktoren: dem…

MTU in IPv6: Fragmentation Header, PMTUD und Blackholes

MTU in IPv6 ist eine der häufigsten versteckten Fehlerquellen in modernen Netzwerken – gerade weil IPv6 viele „alte“ IPv4-Gewohnheiten nicht mehr erlaubt. Wenn die Path MTU nicht passt, entstehen Blackholes, die sich für Anwender wie Zufall anfühlen: kleine Requests funktionieren, große Uploads hängen; TLS-Handshakes brechen sporadisch ab; VPNs und Overlays verhalten sich inkonsistent; oder Dual-Stack-Clients…

Packet Capture an mehreren Punkten: “Follow the Packet” in der Praxis

Packet Capture an mehreren Punkten ist die schnellste Methode, um komplexe Netzwerkprobleme wirklich zu beweisen – statt sie nur zu vermuten. Einzelne Mitschnitte sind oft irreführend: Ein Client-Capture zeigt Retransmissions, aber Sie wissen nicht, ob der Verlust im LAN, im WAN oder am Server entsteht. Eine Firewall loggt „allow“, aber der Rückverkehr kommt nie an.…

BGP RPKI Troubleshooting: Invalid Routes und Policy Impacts

BGP RPKI Troubleshooting wird in immer mehr Netzen zum Tagesgeschäft: Sobald Route Origin Validation (ROV) aktiv ist, werden Routen nicht mehr nur nach klassischen Attributen wie Local Preference, AS-Pfad oder MED bewertet, sondern zusätzlich nach ihrem kryptografisch gestützten Origin-Status. Das verbessert die Routing-Hygiene, reduziert Route Leaks und hilft gegen Prefix Hijacks – kann aber im…

Flow Telemetry: NetFlow/IPFIX als Troubleshooting-Beschleuniger

Flow Telemetry ist für moderne Netzwerkteams einer der stärksten Hebel, um Troubleshooting messbar zu beschleunigen: Statt im Incident „blind“ nach dem betroffenen Host, Port oder Pfad zu suchen, liefert NetFlow/IPFIX in Sekunden eine belastbare Übersicht darüber, welche Flows tatsächlich stattgefunden haben, wie viel Daten sie übertragen haben, welche Richtung dominiert und ob sich Muster (z.…

Troubleshooting im Rechenzentrum: Spine-Leaf Fehlerbilder schnell finden

Troubleshooting im Rechenzentrum ist heute fast immer Troubleshooting in einer Spine-Leaf-Architektur: Viele parallele Pfade (ECMP), kurze Hop-Distanzen, hohe Bandbreiten, Overlays wie VXLAN/EVPN und ein stark automatisierter Betrieb sorgen für enorme Robustheit – aber auch für Fehlerbilder, die ohne Systematik schwer greifbar sind. Typische Tickets lauten dann nicht „Link down“, sondern „nur einige Verbindungen sind langsam“,…

Streaming Telemetry: gNMI, sFlow und High-Frequency Metrics

Streaming Telemetry hat die Art verändert, wie Netzwerkteams Performance-Probleme erkennen und beheben: Statt alle fünf Minuten per SNMP einen Zähler abzufragen und anschließend zu raten, was dazwischen passiert ist, liefern moderne Telemetrie-Ansätze Daten in hoher Frequenz, oft sekunden- oder sogar subsekundengenau. Genau hier spielen gNMI, sFlow und High-Frequency Metrics ihre Stärken aus. In der Praxis…

MLAG/vPC Troubleshooting: Split-Brain, Peer-Link und Consistency Checks

MLAG/vPC Troubleshooting ist im Rechenzentrum eine der wichtigsten Disziplinen, weil Multi-Chassis Link Aggregation (MLAG) – je nach Hersteller als vPC, MC-LAG, VLT, IRF, StackWise Virtual oder ähnlich bezeichnet – genau dort sitzt, wo viele kritische Verbindungen enden: Server-Bonds, Uplinks, Border-Leaves, Storage und Load-Balancer. Im Normalbetrieb ist MLAG unsichtbar und wirkt „einfach stabil“. Im Fehlerfall ist…

SNMP Counter richtig lesen: Discards vs. Drops vs. Errors

SNMP Counter richtig lesen ist eine unterschätzte Kernkompetenz im Netzwerkbetrieb: Viele Incidents lassen sich binnen Minuten einordnen, wenn Sie Discards vs. Drops vs. Errors sauber unterscheiden und die richtigen Interface-Zähler im Kontext interpretieren. Gleichzeitig entstehen hier die meisten Fehlalarme: „Input errors steigen, also ist das Kabel kaputt“ – dabei sind es in Wirklichkeit Output drops…

STP vs. MLAG: Wenn Topologien kollidieren

STP vs. MLAG ist eine der klassischen „Topologie-Kollisionen“ im Rechenzentrum und im Campus – und gleichzeitig eine der häufigsten Ursachen für schwer erklärbare Layer-2-Störungen. Spanning Tree Protocol (STP) existiert, um Loops in redundanten Layer-2-Topologien zu verhindern. MLAG (Multi-Chassis Link Aggregation) – je nach Hersteller vPC, MC-LAG, VLT, IRF, StackWise Virtual oder ähnlich genannt – existiert,…