“Es geht nicht”: Netzwerk-Triage Checkliste für On-Call Engineers

„Es geht nicht“ ist die häufigste, aber auch die unbrauchbarste Fehlermeldung im On-Call. Sie sagt nichts darüber aus, ob das Problem am Client, im Access-Netz, im Core, im WAN, in der Cloud, an einer Firewall oder in der Anwendung liegt. Genau deshalb brauchen On-Call Engineers eine Netzwerk-Triage Checkliste, die in wenigen Minuten aus einem vagen…

MAC-Flapping: Ursachen, Nachweise und Fixes ohne Blindflug

MAC-Flapping ist eines der deutlichsten Alarmsignale im Layer-2-Betrieb – und gleichzeitig ein häufiger Auslöser für „komische“ Störungen, die sich wie Applikationsprobleme anfühlen: sporadische Paketverluste, ARP-Probleme, instabile Gateways, VoIP-Jitter oder plötzlich wechselnde Erreichbarkeit einzelner Hosts. Der Grund ist simpel: Wenn eine MAC-Adresse innerhalb kurzer Zeit auf unterschiedlichen Switchports gelernt wird, weiß das Netzwerk nicht mehr zuverlässig,…

Baselines bauen: Warum Troubleshooting ohne “Normalzustand” scheitert

Baselines bauen ist eine der wirkungsvollsten, aber am häufigsten vernachlässigten Disziplinen im Netzwerkbetrieb. Wer schon einmal nachts im On-Call vor einem Ticket mit dem Inhalt „Netzwerk langsam“ stand, kennt das Dilemma: Ohne Normalzustand ist jede Messung wertlos, weil niemand sagen kann, ob 40 ms RTT „schlecht“ sind, ob 0,5% Packet Loss „normal“ ist oder ob…

VLAN/Trunk Troubleshooting: Allowed VLANs, Native VLAN, Tagging-Fallen

VLAN/Trunk Troubleshooting gehört zu den häufigsten Ursachen für „es geht nicht“-Tickets im Campus- und Data-Center-Betrieb – und gleichzeitig zu den Fehlerbildern, die besonders lange dauern, wenn man ohne System vorgeht. Ein einziger falsch gesetzter Allowed-VLAN-Filter, eine inkonsistente Native VLAN oder eine Tagging-Falle an einem Hypervisor, Access Point oder Medienkonverter kann dazu führen, dass nur ein…

MTU & VPN: Warum große Pakete im Tunnel brechen

MTU & VPN ist eines der klassischsten Troubleshooting-Themen, wenn „kleine Dinge gehen, aber große brechen“: Webseiten laden teilweise, SSO-Logins hängen, große Dateiuploads scheitern, RDP/VDI wirkt instabil oder bestimmte APIs timeouten – und das alles, obwohl Ping funktioniert und die Bandbreite „eigentlich“ ausreicht. Der Kernfehler liegt fast immer im Zusammenspiel aus MTU (Maximum Transmission Unit), Tunnel-Overhead…

Netzwerk-Runbook erstellen: Standardprozesse für schnelle Störungsbehebung

Ein Netzwerk-Runbook erstellen ist einer der wirksamsten Schritte, um Störungen schneller, konsistenter und mit weniger Risiko zu beheben. In vielen IT-Teams hängt die Qualität der Fehlerbehebung stark an einzelnen Personen: Wer die Umgebung „im Kopf“ hat, findet die Ursache schnell – alle anderen tappen im Dunkeln, sammeln unvollständige Informationen oder führen ad-hoc Änderungen durch, die…

Incident Handling im Netzwerk: Eskalation, Kommunikation, Dokumentation

Incident Handling im Netzwerk entscheidet in vielen Unternehmen darüber, ob eine Störung „ein kurzer Schluckauf“ bleibt oder zu einem langwierigen, teuren Ausfall eskaliert. Technisch gesehen lassen sich viele Netzwerkprobleme lösen – die eigentliche Herausforderung liegt jedoch oft in den Prozessen: Wer übernimmt die Führung? Wann wird eskaliert? Wie kommunizieren Sie transparent, ohne Spekulationen? Welche Informationen…

Post-Mortem nach Netzwerkausfällen: So verbessern Sie nachhaltig

Ein Post-Mortem nach Netzwerkausfällen ist der entscheidende Schritt, damit Störungen nicht nur „irgendwie behoben“ werden, sondern das Netzwerk und die Betriebsorganisation messbar besser werden. In vielen IT-Teams endet der Vorfall, sobald die Services wieder verfügbar sind: Ticket schließen, weiter zum nächsten Thema. Genau dadurch wiederholen sich Ausfälle jedoch in ähnlicher Form – weil die eigentliche…

Change verursacht Ausfall: Wie Sie Änderungen sicher zurückrollen

Ein Change verursacht Ausfall – und plötzlich zählt jede Minute. In Netzwerken ist das besonders kritisch: Eine kleine Änderung an Routing, Firewall, DNS, VLANs, QoS oder VPN kann kaskadierende Effekte auslösen und ganze Standorte oder Services beeinträchtigen. In solchen Momenten entscheidet nicht nur die technische Kompetenz, sondern vor allem die Fähigkeit, Änderungen sicher zurückzurollen. Ein…

Netzwerk-Health-Check: Regelmäßige Tests, die Ausfälle verhindern

Ein Netzwerk-Health-Check ist die einfachste und zugleich wirkungsvollste Methode, um Ausfälle zu verhindern, bevor Nutzer überhaupt etwas merken. In vielen Umgebungen wird das Netzwerk erst dann „wirklich“ untersucht, wenn es brennt: Link down, Standort offline, VPN instabil, DNS langsam, VoIP ruckelt. Dabei kündigen sich die meisten Störungen früh an – durch schleichende Fehlerzähler, ungewöhnliche Latenzspitzen,…