NOC-KPIs: MTTR, MTBF und Metriken, die nicht in die Irre führen

NOC-KPIs wie MTTR, MTBF und verwandte Kennzahlen sind im Netzwerk- und IT-Betrieb längst Standard – und trotzdem führen sie in vielen Organisationen zu falschen Prioritäten. Der Grund ist selten die Metrik an sich, sondern die Art, wie sie definiert, gemessen und interpretiert wird. MTTR (Mean Time to Repair/Resolve/Restore) kann wie ein Qualitätsindikator wirken, obwohl sie…

Intermittierende Netzwerkprobleme: Investigations-Techniken ohne Rätselraten

Intermittierende Netzwerkprobleme sind die schwierigsten Störungen im Betrieb: Sie treten unregelmäßig auf, verschwinden genau dann, wenn man messen will, und erzeugen widersprüchliche Beobachtungen („eben ging es noch“, „nur manchmal langsam“, „nur nachmittags“, „nur über WLAN“, „nur für einzelne Apps“). Genau deshalb scheitern viele Teams an einem strukturierten Vorgehen – und rutschen ins Rätselraten: Kabel tauschen,…

Packet Loss vs. Congestion: Unterscheidung anhand von Monitoring-Daten

Packet Loss vs. Congestion zu unterscheiden, ist eine der wichtigsten Fähigkeiten im Netzwerkbetrieb – und gleichzeitig eine der häufigsten Ursachen für Fehldiagnosen. Beide Phänomene führen zu ähnlichen Symptomen: ruckelnde VoIP-Calls, langsame Apps, Retransmits, Timeouts, schlechte Nutzererfahrung. Der entscheidende Unterschied liegt jedoch in der Ursache und damit in der richtigen Maßnahme. Packet Loss bedeutet, dass Pakete…

Traceroute ungenau? Wann MTR sinnvoll ist – und warum

Traceroute ungenau – diese Wahrnehmung ist im Netzwerkbetrieb sehr verbreitet. Ein Traceroute zeigt zwar schnell den Pfad zu einem Ziel, liefert aber oft Ergebnisse, die auf den ersten Blick widersprüchlich wirken: einzelne Hops mit hoher Latenz, scheinbar hoher Paketverlust in der Mitte der Strecke oder „Sterne“ (keine Antwort) an mehreren Stellen, obwohl die Anwendung am…

Blackhole-Routing finden (schnelle Methode fürs NOC)

Blackhole-Routing finden gehört zu den wichtigsten NOC-Aufgaben, weil der Fehler extrem „still“ ist: Traffic verschwindet, ohne dass klare Fehlermeldungen zurückkommen. Für Nutzer sieht das aus wie „Request timed out“, „App hängt“, „VPN verbindet nicht“ oder „nur manche Services gehen nicht“. Für das NOC ist es gefährlich, weil klassische Checks wie „Interface up“, „BGP established“ oder…

Asymmetrisches Routing: Symptome, Auswirkungen und Bestätigung

Asymmetrisches Routing ist einer der häufigsten Gründe, warum Verbindungen „komisch“ wirken: Pings sehen gut aus, aber Anwendungen brechen ab; ein Standort funktioniert, ein anderer nicht; TCP-Verbindungen bauen sich auf, hängen dann aber; oder Firewalls melden Drops, obwohl die Routen „stimmen“. Der Kern ist einfach: Der Hinweg eines Datenstroms (Client → Server) nimmt einen anderen Pfad…

MTU-/Fragmentierungsprobleme: Ursache von „Small works, large fails“

MTU-/Fragmentierungsprobleme sind eine der häufigsten Ursachen für das klassische Fehlerbild „Small works, large fails“: Kleine Pakete kommen an, große Datenübertragungen hängen, brechen ab oder werden extrem langsam. In der Praxis äußert sich das selten als eindeutige Fehlermeldung. Stattdessen sehen Sie Symptome wie: Ping geht, DNS geht, TCP-Handshake klappt – aber Downloads starten nicht, HTTPS-Seiten laden…

DHCP bekommt keine IP: Troubleshooting von Layer 2 bis Layer 7

Wenn ein Client meldet „DHCP bekommt keine IP“, ist das in Unternehmensnetzen selten ein einzelner „Server ist down“-Fehler, sondern häufig ein Zusammenspiel aus Layer-2-Transport, VLAN/SSID-Zuordnung, Relay-Konfiguration, Scope-Kapazität und Sicherheitsrichtlinien. Das Tückische: DHCP ist so grundlegend, dass sich Folgeprobleme überall zeigen können – vom „Kein Internet“ bis zu Anmeldeproblemen, weil DNS, Proxy und Domain-Services ohne gültige…

VLAN-Mismatch: Schnell prüfen und sicher fixen

Ein VLAN-Mismatch ist eine der häufigsten Ursachen für „komische“ Netzwerkfehler im Alltag: Geräte bekommen keine IP per DHCP, VoIP-Telefone landen im falschen Netz, WLAN-Clients funktionieren nur auf manchen Access Points, oder ein Server ist „up“, aber nicht erreichbar. Der Grund ist meist banal und gleichzeitig tückisch: Zwei Seiten einer Verbindung erwarten unterschiedliche VLAN-Tagging-Regeln. Das kann…

ARP-Probleme: Warum sie wie Routing-Issues aussehen (so beweist du es)

ARP-Probleme gehören zu den häufigsten Ursachen für Störungen, die auf den ersten Blick wie klassische Routing-Issues aussehen: „Host unreachable“, sporadische Timeouts, nur ein Subnetz ist nicht erreichbar, oder einzelne Server sind plötzlich „weg“, obwohl Routingtabellen, BGP und OSPF vollkommen unauffällig wirken. Der Grund ist simpel: Bevor ein Gerät ein IPv4-Paket im lokalen Layer-2-Segment zustellen kann,…