NOC-Schichtübergabe: Checkliste gegen „Lost Context“

Die NOC-Schichtübergabe: Checkliste gegen „Lost Context“ ist einer der wirksamsten Hebel, um Incident-Dauer, Fehlentscheidungen und Doppelarbeit im 24/7-Betrieb spürbar zu reduzieren. In der Praxis entstehen viele Verzögerungen nicht durch fehlende Fachkompetenz, sondern durch unvollständige oder unstrukturierte Übergaben zwischen Schichten. Wenn relevante Informationen nur in Köpfen, Chat-Nachrichten oder verstreuten Notizen stecken, beginnt die nächste Schicht faktisch…

„Second Outage“ nach Recovery vermeiden

Das Thema „Second Outage“ nach Recovery vermeiden ist für moderne IT- und Netzwerkbetriebe entscheidend, weil die kritischste Phase eines Incidents häufig nicht der eigentliche Ausfall ist, sondern die Minuten und Stunden nach der ersten Wiederherstellung. Genau dort entstehen in vielen Organisationen die teuersten Folgeschäden: Ein Service wirkt zunächst stabil, Last kehrt zurück, versteckte Abhängigkeiten greifen,…

L1–L3-Checkliste bei Link Flaps

Eine belastbare L1–L3-Checkliste bei Link Flaps ist für stabile Netzwerke unverzichtbar, weil kurze Up/Down-Ereignisse auf Interfaces in der Praxis überproportional viel Schaden verursachen: Routing-Nachbarschaften resetten, Voice- und Videoströme brechen ab, TCP-Sessions geraten in Retransmit-Schleifen, Cluster verlieren Heartbeats, und Monitoring erzeugt Alarm-Stürme. Genau deshalb sollte die Analyse von Link Flaps nicht mit Einzelkommandos beginnen, sondern mit…

MTU-/Fragmentierungsprobleme troubleshooten ohne Trial-and-Error

Das Thema „MTU-/Fragmentierungsprobleme troubleshooten ohne Trial-and-Error“ ist im Netzwerkbetrieb besonders relevant, weil solche Fehlerbilder oft unauffällig starten, aber in der Praxis zu schwer erklärbaren Ausfällen führen: Webseiten laden teilweise, VPN-Verbindungen sind „verbunden aber unbenutzbar“, API-Calls laufen in Timeouts, große Transfers scheitern, kleine Requests funktionieren. Genau diese Inkonsistenz verleitet viele Teams zu hektischem Herumprobieren an MSS,…

„Nur ein Teil der User hat Errors“: ECMP/Hashing-Issues aufdecken

Das Fehlerbild „Nur ein Teil der User hat Errors“: ECMP/Hashing-Issues aufdecken ist im Netzwerkbetrieb besonders tückisch, weil es auf den ersten Blick wie ein zufälliger Applikationsfehler wirkt. Einige Nutzer arbeiten ohne Probleme, andere erhalten Timeouts, Resets oder sporadische 5xx-Fehler – oft zur gleichen Zeit, auf denselben Services und mit identischen Clients. Genau diese selektive Betroffenheit…

Asymmetrisches Routing: Typische Symptome und Bestätigung

Das Thema „Asymmetrisches Routing: Typische Symptome und Bestätigung“ ist in modernen Netzwerken hochrelevant, weil es in hybriden Architekturen, Multi-Cloud-Topologien, SD-WAN-Umgebungen und Security-Zonen schnell zu schwer greifbaren Störungen führt. Besonders tückisch ist, dass asymmetrisches Routing nicht zwangsläufig ein Fehler sein muss: In vielen Designs ist es normal, dass Hin- und Rückweg unterschiedlich verlaufen. Problematisch wird es…

Wenn Traceroute täuscht: Wann du andere Tools brauchst

Das Thema „Wenn Traceroute täuscht: Wann du andere Tools brauchst“ ist für den operativen Netzwerkalltag entscheidend, weil Traceroute zwar schnell verfügbar ist, aber in modernen Infrastrukturen nur einen Ausschnitt der Realität zeigt. Viele Teams verlassen sich im Incident zu früh auf einzelne Hop-Zeilen und interpretieren daraus Ursachen, die sich später als falsch herausstellen. Das kostet…

DHCP-Failures diagnostizieren: Von L2 bis L7

Das Thema „DHCP-Failures diagnostizieren: Von L2 bis L7“ ist im operativen IT-Alltag zentral, weil ein einzelner Fehler in der Adressvergabe oft ganze Nutzergruppen vom Netzwerkzugang ausschließt. Wenn Endgeräte keine gültige IP-Konfiguration erhalten, wirken die Symptome zunächst unspezifisch: keine Internetverbindung, keine Namensauflösung, keine Anmeldung an internen Diensten, keine Erreichbarkeit von Applikationen. In vielen Umgebungen wird dann…

VLAN-Probleme: Mismatch vs. Allowed-VLAN-Drift schnell prüfen

Das Thema „VLAN-Probleme: Mismatch vs. Allowed-VLAN-Drift schnell prüfen“ ist im Netzwerkbetrieb ein echter Zeitfresser, weil die Symptome oft ähnlich aussehen, die Ursachen aber unterschiedlich sind. Anwender melden „Netz weg“, VoIP-Clients registrieren sich nicht, Access Points verlieren einzelne SSIDs, Server sind nur aus manchen Segmenten erreichbar – und in vielen Fällen liegt die Wurzel nicht in…

ARP/ND-Probleme untersuchen, die wie Routing aussehen

Das Thema „ARP/ND-Probleme untersuchen, die wie Routing aussehen“ ist im operativen Netzwerkbetrieb besonders wichtig, weil Störungen auf Nachbarschaftsebene (Layer 2/3-Übergang) in der Praxis häufig als Routing-Fehler fehlinterpretiert werden. Typische Meldungen lauten dann: „Route fehlt“, „Gateway antwortet nicht“, „nur manche Ziele sind erreichbar“. Tatsächlich liegt die Ursache oft nicht in OSPF, BGP oder statischen Routen, sondern…