Wann braucht man PCAP? Entscheidende Indikatoren

Das Thema „Wann braucht man PCAP? Entscheidende Indikatoren“ ist im IT-Betrieb weit mehr als eine Werkzeugfrage. Es entscheidet darüber, ob ein Incident in Minuten sauber eingegrenzt wird oder sich über Stunden in Vermutungen verliert. In vielen Teams gilt Packet Capture (PCAP) noch als „letzter Ausweg“, dabei ist es häufig genau dann sinnvoll, wenn Metriken, Logs…

DNS-Issue oder Routing-Issue? Mit Minimaldaten beweisen

Das Praxisproblem „DNS-Issue oder Routing-Issue? Mit Minimaldaten beweisen“ ist in IT-Betrieb und Incident-Response ein Klassiker mit hoher Auswirkung auf Ausfallzeiten, Eskalationsqualität und Teamproduktivität. Wenn Anwendungen „nicht erreichbar“ sind, wird oft zu früh spekuliert: Das Netzwerkteam vermutet DNS, das Plattformteam vermutet Routing, der Helpdesk meldet pauschal „Internet down“. Genau hier entscheidet ein methodisches Vorgehen mit Minimaldaten…

Intermittierende Issues: Root Cause fixieren – ohne Spekulation

Das Thema „Intermittierende Issues: Root Cause fixieren – ohne Spekulation“ ist für Betriebsteams eine der anspruchsvollsten Disziplinen in IT-Operations, NOC, SRE und Plattformbetrieb. Gerade weil Fehler nur zeitweise auftreten, entstehen im Alltag schnell vorschnelle Hypothesen: mal ist es „bestimmt das Netzwerk“, mal „wieder die Datenbank“, mal „vermutlich der Cloud-Provider“. Diese Muster kosten Zeit, erhöhen den…

Packet Loss vs. Congestion: Anhand von Telemetrie unterscheiden

Die saubere Abgrenzung von „Packet Loss vs. Congestion: Anhand von Telemetrie unterscheiden“ gehört zu den wichtigsten Fähigkeiten im modernen Netzwerkbetrieb. In der Praxis werden beide Phänomene häufig gleichgesetzt, obwohl sie unterschiedliche Ursachen, unterschiedliche Gegenmaßnahmen und unterschiedliche Risiken für Applikationen mit sich bringen. Wer Paketverlust und Überlast nicht präzise trennt, reagiert oft mit falschen Maßnahmen: Bandbreite…

L1–L3-Checkliste bei Link Flaps

Eine belastbare L1–L3-Checkliste bei Link Flaps ist für stabile Netzwerke unverzichtbar, weil kurze Up/Down-Ereignisse auf Interfaces in der Praxis überproportional viel Schaden verursachen: Routing-Nachbarschaften resetten, Voice- und Videoströme brechen ab, TCP-Sessions geraten in Retransmit-Schleifen, Cluster verlieren Heartbeats, und Monitoring erzeugt Alarm-Stürme. Genau deshalb sollte die Analyse von Link Flaps nicht mit Einzelkommandos beginnen, sondern mit…

MTU-/Fragmentierungsprobleme troubleshooten ohne Trial-and-Error

Das Thema „MTU-/Fragmentierungsprobleme troubleshooten ohne Trial-and-Error“ ist im Netzwerkbetrieb besonders relevant, weil solche Fehlerbilder oft unauffällig starten, aber in der Praxis zu schwer erklärbaren Ausfällen führen: Webseiten laden teilweise, VPN-Verbindungen sind „verbunden aber unbenutzbar“, API-Calls laufen in Timeouts, große Transfers scheitern, kleine Requests funktionieren. Genau diese Inkonsistenz verleitet viele Teams zu hektischem Herumprobieren an MSS,…

„Nur ein Teil der User hat Errors“: ECMP/Hashing-Issues aufdecken

Das Fehlerbild „Nur ein Teil der User hat Errors“: ECMP/Hashing-Issues aufdecken ist im Netzwerkbetrieb besonders tückisch, weil es auf den ersten Blick wie ein zufälliger Applikationsfehler wirkt. Einige Nutzer arbeiten ohne Probleme, andere erhalten Timeouts, Resets oder sporadische 5xx-Fehler – oft zur gleichen Zeit, auf denselben Services und mit identischen Clients. Genau diese selektive Betroffenheit…

Asymmetrisches Routing: Typische Symptome und Bestätigung

Das Thema „Asymmetrisches Routing: Typische Symptome und Bestätigung“ ist in modernen Netzwerken hochrelevant, weil es in hybriden Architekturen, Multi-Cloud-Topologien, SD-WAN-Umgebungen und Security-Zonen schnell zu schwer greifbaren Störungen führt. Besonders tückisch ist, dass asymmetrisches Routing nicht zwangsläufig ein Fehler sein muss: In vielen Designs ist es normal, dass Hin- und Rückweg unterschiedlich verlaufen. Problematisch wird es…

Wenn Traceroute täuscht: Wann du andere Tools brauchst

Das Thema „Wenn Traceroute täuscht: Wann du andere Tools brauchst“ ist für den operativen Netzwerkalltag entscheidend, weil Traceroute zwar schnell verfügbar ist, aber in modernen Infrastrukturen nur einen Ausschnitt der Realität zeigt. Viele Teams verlassen sich im Incident zu früh auf einzelne Hop-Zeilen und interpretieren daraus Ursachen, die sich später als falsch herausstellen. Das kostet…

DHCP-Failures diagnostizieren: Von L2 bis L7

Das Thema „DHCP-Failures diagnostizieren: Von L2 bis L7“ ist im operativen IT-Alltag zentral, weil ein einzelner Fehler in der Adressvergabe oft ganze Nutzergruppen vom Netzwerkzugang ausschließt. Wenn Endgeräte keine gültige IP-Konfiguration erhalten, wirken die Symptome zunächst unspezifisch: keine Internetverbindung, keine Namensauflösung, keine Anmeldung an internen Diensten, keine Erreichbarkeit von Applikationen. In vielen Umgebungen wird dann…