MAC-Flapping: Ursachen, Nachweise und Fixes ohne Blindflug

MAC-Flapping ist eines der deutlichsten Alarmsignale im Layer-2-Betrieb – und gleichzeitig ein häufiger Auslöser für „komische“ Störungen, die sich wie Applikationsprobleme anfühlen: sporadische Paketverluste, ARP-Probleme, instabile Gateways, VoIP-Jitter oder plötzlich wechselnde Erreichbarkeit einzelner Hosts. Der Grund ist simpel: Wenn eine MAC-Adresse innerhalb kurzer Zeit auf unterschiedlichen Switchports gelernt wird, weiß das Netzwerk nicht mehr zuverlässig,…

Baselines bauen: Warum Troubleshooting ohne “Normalzustand” scheitert

Baselines bauen ist eine der wirkungsvollsten, aber am häufigsten vernachlässigten Disziplinen im Netzwerkbetrieb. Wer schon einmal nachts im On-Call vor einem Ticket mit dem Inhalt „Netzwerk langsam“ stand, kennt das Dilemma: Ohne Normalzustand ist jede Messung wertlos, weil niemand sagen kann, ob 40 ms RTT „schlecht“ sind, ob 0,5% Packet Loss „normal“ ist oder ob…

VLAN/Trunk Troubleshooting: Allowed VLANs, Native VLAN, Tagging-Fallen

VLAN/Trunk Troubleshooting gehört zu den häufigsten Ursachen für „es geht nicht“-Tickets im Campus- und Data-Center-Betrieb – und gleichzeitig zu den Fehlerbildern, die besonders lange dauern, wenn man ohne System vorgeht. Ein einziger falsch gesetzter Allowed-VLAN-Filter, eine inkonsistente Native VLAN oder eine Tagging-Falle an einem Hypervisor, Access Point oder Medienkonverter kann dazu führen, dass nur ein…

High-Signal Telemetrie: Welche Daten Netzwerkteams wirklich brauchen

High-Signal Telemetrie ist der entscheidende Unterschied zwischen „wir haben viele Daten“ und „wir verstehen unser Netzwerk in Echtzeit“. In vielen IT-Netzwerken scheitert Troubleshooting nicht an fehlenden Tools, sondern an fehlender Signalqualität: Teams sammeln tausende Metriken, aber keine beantwortet die zentrale Frage im Incident: Was ist abnormal, wo passiert es, und warum? High-Signal Telemetrie konzentriert sich…

Netzwerk-Runbook erstellen: Standardprozesse für schnelle Störungsbehebung

Ein Netzwerk-Runbook erstellen ist einer der wirksamsten Schritte, um Störungen schneller, konsistenter und mit weniger Risiko zu beheben. In vielen IT-Teams hängt die Qualität der Fehlerbehebung stark an einzelnen Personen: Wer die Umgebung „im Kopf“ hat, findet die Ursache schnell – alle anderen tappen im Dunkeln, sammeln unvollständige Informationen oder führen ad-hoc Änderungen durch, die…

Incident Handling im Netzwerk: Eskalation, Kommunikation, Dokumentation

Incident Handling im Netzwerk entscheidet in vielen Unternehmen darüber, ob eine Störung „ein kurzer Schluckauf“ bleibt oder zu einem langwierigen, teuren Ausfall eskaliert. Technisch gesehen lassen sich viele Netzwerkprobleme lösen – die eigentliche Herausforderung liegt jedoch oft in den Prozessen: Wer übernimmt die Führung? Wann wird eskaliert? Wie kommunizieren Sie transparent, ohne Spekulationen? Welche Informationen…

Post-Mortem nach Netzwerkausfällen: So verbessern Sie nachhaltig

Ein Post-Mortem nach Netzwerkausfällen ist der entscheidende Schritt, damit Störungen nicht nur „irgendwie behoben“ werden, sondern das Netzwerk und die Betriebsorganisation messbar besser werden. In vielen IT-Teams endet der Vorfall, sobald die Services wieder verfügbar sind: Ticket schließen, weiter zum nächsten Thema. Genau dadurch wiederholen sich Ausfälle jedoch in ähnlicher Form – weil die eigentliche…

Change verursacht Ausfall: Wie Sie Änderungen sicher zurückrollen

Ein Change verursacht Ausfall – und plötzlich zählt jede Minute. In Netzwerken ist das besonders kritisch: Eine kleine Änderung an Routing, Firewall, DNS, VLANs, QoS oder VPN kann kaskadierende Effekte auslösen und ganze Standorte oder Services beeinträchtigen. In solchen Momenten entscheidet nicht nur die technische Kompetenz, sondern vor allem die Fähigkeit, Änderungen sicher zurückzurollen. Ein…

Netzwerk-Health-Check: Regelmäßige Tests, die Ausfälle verhindern

Ein Netzwerk-Health-Check ist die einfachste und zugleich wirkungsvollste Methode, um Ausfälle zu verhindern, bevor Nutzer überhaupt etwas merken. In vielen Umgebungen wird das Netzwerk erst dann „wirklich“ untersucht, wenn es brennt: Link down, Standort offline, VPN instabil, DNS langsam, VoIP ruckelt. Dabei kündigen sich die meisten Störungen früh an – durch schleichende Fehlerzähler, ungewöhnliche Latenzspitzen,…

Troubleshooting mit Diagrammen: Topologie verstehen, Fehler finden

Troubleshooting mit Diagrammen ist eine der unterschätztesten Fähigkeiten im Netzwerkbetrieb: Nicht das Tool entscheidet zuerst, sondern Ihr mentales Modell der Topologie. Viele Störungen wirken „zufällig“ – Paketverlust hier, Timeouts dort, nur bestimmte Standorte betroffen – und werden erst verständlich, wenn klar ist, wie Datenpfade wirklich laufen. Genau dabei helfen Diagramme: Sie zwingen dazu, Annahmen zu…