Vendor Bugs erkennen: Reproduzierbarkeit, Evidence und Support Cases

Vendor Bugs erkennen gehört zu den anspruchsvollsten Aufgaben im Netzwerkbetrieb. Nicht, weil Hersteller-Bugs selten wären, sondern weil ihre Symptome oft genauso aussehen wie „klassische“ Ursachen: Paketverlust, hohe Latenz, BGP-Flaps, MAC-Flapping, Control-Plane-Overload oder sporadische Drops. Der Unterschied ist, dass Sie bei einem Vendor Bug (Hersteller-Bug) nicht nur die technische Ursache finden müssen, sondern auch beweisen müssen,…

Lab-to-Prod Debugging: Containerlab/EVE-NG zur Fehlerreproduktion

Lab-to-Prod Debugging ist eine der effektivsten Methoden, um komplexe Netzwerkfehler zuverlässig zu verstehen, zu beweisen und nachhaltig zu beheben. Gemeint ist die Fähigkeit, ein Problem aus der Produktionsumgebung in ein kontrolliertes Labor zu übertragen, dort reproduzierbar zu machen und anschließend Änderungen risikoarm zu validieren, bevor sie wieder in Produktion gehen. Genau hier liefern moderne Lab-Plattformen…

Batfish & Intent Validation: Policies testen, bevor es brennt

Batfish & Intent Validation sind zwei Begriffe, die in modernen Netzwerkteams immer dann relevant werden, wenn aus „kleinen Changes“ plötzlich große Incidents werden. Denn viele Ausfälle entstehen nicht durch Hardwaredefekte, sondern durch unbeabsichtigte Policy-Effekte: Ein Prefix-Filter ist zu strikt, eine Route-Map matcht in der falschen Reihenfolge, eine ACL blockiert Rückverkehr, oder ein NAT-/Firewall-Change erzeugt One-Way-Symptome.…

Chaos Engineering im Netzwerk: Fehler injizieren und Diagnostik üben

Chaos Engineering im Netzwerk ist die kontrollierte Kunst, Fehler absichtlich zu erzeugen, um Stabilität, Observability und Reaktionsfähigkeit zu verbessern. Statt darauf zu warten, bis ein echter Incident nachts um 03:00 Uhr eintritt, injizieren Sie gezielt Störungen wie Paketverlust, Latenz, Jitter, Link-Flaps oder Routing-Anomalien – in einem sicheren Rahmen, mit klaren Abbruchkriterien und messbaren Erwartungen. Der…

Streaming Telemetry: gNMI, sFlow und High-Frequency Metrics

Streaming Telemetry hat die Art verändert, wie Netzwerkteams Performance-Probleme erkennen und beheben: Statt alle fünf Minuten per SNMP einen Zähler abzufragen und anschließend zu raten, was dazwischen passiert ist, liefern moderne Telemetrie-Ansätze Daten in hoher Frequenz, oft sekunden- oder sogar subsekundengenau. Genau hier spielen gNMI, sFlow und High-Frequency Metrics ihre Stärken aus. In der Praxis…

MLAG/vPC Troubleshooting: Split-Brain, Peer-Link und Consistency Checks

MLAG/vPC Troubleshooting ist im Rechenzentrum eine der wichtigsten Disziplinen, weil Multi-Chassis Link Aggregation (MLAG) – je nach Hersteller als vPC, MC-LAG, VLT, IRF, StackWise Virtual oder ähnlich bezeichnet – genau dort sitzt, wo viele kritische Verbindungen enden: Server-Bonds, Uplinks, Border-Leaves, Storage und Load-Balancer. Im Normalbetrieb ist MLAG unsichtbar und wirkt „einfach stabil“. Im Fehlerfall ist…

SNMP Counter richtig lesen: Discards vs. Drops vs. Errors

SNMP Counter richtig lesen ist eine unterschätzte Kernkompetenz im Netzwerkbetrieb: Viele Incidents lassen sich binnen Minuten einordnen, wenn Sie Discards vs. Drops vs. Errors sauber unterscheiden und die richtigen Interface-Zähler im Kontext interpretieren. Gleichzeitig entstehen hier die meisten Fehlalarme: „Input errors steigen, also ist das Kabel kaputt“ – dabei sind es in Wirklichkeit Output drops…

STP vs. MLAG: Wenn Topologien kollidieren

STP vs. MLAG ist eine der klassischen „Topologie-Kollisionen“ im Rechenzentrum und im Campus – und gleichzeitig eine der häufigsten Ursachen für schwer erklärbare Layer-2-Störungen. Spanning Tree Protocol (STP) existiert, um Loops in redundanten Layer-2-Topologien zu verhindern. MLAG (Multi-Chassis Link Aggregation) – je nach Hersteller vPC, MC-LAG, VLT, IRF, StackWise Virtual oder ähnlich genannt – existiert,…

Syslog Triage: High-Signal Events schnell erkennen

Syslog Triage ist eine der wirkungsvollsten Fähigkeiten im Netzwerkbetrieb: Wer in Sekunden erkennt, welche Meldungen „High Signal“ sind, verkürzt die Mean Time to Detect (MTTD) und damit die MTTR dramatisch. Gleichzeitig ist Syslog in vielen Umgebungen ein Lärmproblem: Tausende Events pro Minute, wechselnde Message-Formate, unklare Severity-Levels, fehlende Korrelation und Geräte, die bei jeder Link-Neuverhandlung ganze…

Time Sync Issues: NTP/PTP Drift als versteckte Fehlerquelle

Time Sync Issues gehören zu den am häufigsten übersehenen Ursachen für „mysteriöse“ Störungen in IT- und Computernetzwerken. Wenn NTP/PTP Drift unbemerkt wächst, wirkt das zunächst harmlos: Logs sehen nur „komisch“ aus, Metriken passen nicht zusammen, einzelne Requests scheinen „aus der Zeit zu fallen“. Doch in modernen verteilten Systemen ist Zeit ein fundamentales Koordinatensystem. Ohne verlässliche…