TCP-Retransmission-Spike: Netzwerk oder Anwendung?

Ein TCP-Retransmission-Spike ist eines der stärksten Frühwarnsignale für degradierte Servicequalität – und gleichzeitig eine der häufigsten Quellen für Eskalationskonflikte: „Das Netzwerk droppt Pakete“ versus „die Anwendung/der Host ist überlastet“. Retransmissions entstehen immer dann, wenn der Sender ein Segment nicht bestätigt bekommt und es erneut senden muss. Das kann echte Paketverluste bedeuten, aber genauso gut verzögerte…

VPN-Session-Reset: Root-Cause-Matrix (ISP, MTU, Crypto, Policy)

Ein VPN-Session-Reset ist einer der frustrierendsten Incident-Typen im Betrieb: Die Verbindung steht scheinbar stabil, dann reißt der Tunnel ab, baut sich neu auf – und Nutzer erleben Paketverlust, RDP-/VDI-Abbrüche, VoIP-Störungen oder „kurze“ Aussetzer, die Monitoring nur schwer greifbar macht. Weil VPNs mehrere Schichten gleichzeitig berühren (Underlay-Transport, MTU/Fragmentierung, Kryptografie, IKE-/TLS-Handshake, Routing und Security-Policies), werden Ursachen häufig…

TCP-Handshake-Fail: SYN/SYN-ACK/ACK im NOC-RCA

Ein TCP-Handshake-Fail gehört zu den häufigsten und gleichzeitig missverständlichsten Fehlerbildern im operativen Betrieb: Anwender melden „Service down“, Monitoring zeigt „Connection timeout“, und die beteiligten Teams diskutieren, ob Netzwerk, Firewall, Load Balancer oder Anwendung verantwortlich sind. Der entscheidende Vorteil für das NOC liegt darin, dass der TCP-Verbindungsaufbau eine klare, beobachtbare Sequenz hat: SYN, SYN-ACK, ACK. Wenn…

SMB-Session-Probleme: Symptome aus Packet Captures lesen

SMB-Session-Probleme gehören zu den häufigsten und zugleich missverständlichsten Störungsbildern in Enterprise-Netzen: Dateiübertragungen hängen, Netzlaufwerke trennen sich, Nutzer sehen „Zugriff verweigert“, „Der Netzwerkpfad wurde nicht gefunden“, Office-Dateien lassen sich nicht speichern oder ein Backup-Job läuft plötzlich in Timeouts. Viele Teams diagnostizieren solche Incidents zunächst auf „Netzwerk“ oder „Storage“, dabei liefert ein sauberer Packet Capture (PCAP) meist…

UDP-Loss-Investigation: Welche Telemetrie muss gesammelt werden?

Eine saubere UDP-Loss-Investigation steht und fällt mit der richtigen Telemetrie. Anders als TCP bietet UDP keinen Handshake, keine Sequenzbestätigungen und keine eingebauten Retransmits, die Ihnen „gratis“ erklären, wo es hakt. Genau deshalb ist UDP im NOC häufig frustrierend: Anwendungen melden „Timeouts“, Voice- oder Video-Streams werden abgehackt, DNS wirkt sporadisch langsam – und im Netzwerk sieht…

Session-Tracking fürs NOC: Was lässt sich realistisch beobachten?

Session-Tracking fürs NOC klingt auf den ersten Blick wie ein klar umrissenes Ziel: „Wir wollen Sessions beobachten, damit wir Probleme schneller finden.“ In der Praxis scheitert es jedoch oft an der Realität moderner Netze und Anwendungen. „Session“ kann je nach Kontext eine TCP-Verbindung, ein NAT- oder Firewall-State, eine VPN-SA, ein Load-Balancer-Flow, eine HTTP- oder TLS-Sitzung,…

Conntrack-Table voll: Anzeichen, Impact und Recovery-Plan

Eine Conntrack-Table voll-Situation ist ein klassischer „unsichtbarer“ Ausfalltreiber in modernen Netzen und Plattformen: Von außen wirkt es wie ein zufälliges Timeout- oder „Connection Reset“-Problem, intern ist jedoch schlicht die stateful Verbindungstabelle erschöpft. Betroffen sind nicht nur Firewalls, sondern auch Linux-basierte Router, NAT-Gateways, Kubernetes-Nodes, Load-Balancer-Appliances und viele virtuelle Network Functions. Wenn die Conntrack-Tabelle voll ist, können…

MTU-/Fragmentierungsprobleme: Identifizieren ohne Rätselraten

MTU-/Fragmentierungsprobleme gehören zu den teuersten Fehlerklassen im Betrieb: Sie erzeugen Symptome, die wie „Zufall“ wirken – mal lädt eine Website, mal nicht; kleine Requests funktionieren, große Downloads brechen ab; VPN oder Overlay ist langsam; TLS-Handshakes hängen; einzelne APIs liefern Timeouts, obwohl „Ping geht“. Wer in solchen Situationen ohne Struktur vorgeht, verliert Stunden in Rätselraten. Der…

Layer 3: „Ping geht, App fällt aus“ – L3- oder L7-Problem eindeutig klären

„Ping geht, App fällt aus“ gehört zu den häufigsten und gleichzeitig irreführendsten Aussagen im On-Call- und NOC-Alltag. Ein erfolgreicher ICMP-Ping beweist nämlich nur sehr wenig: Er zeigt, dass zwischen zwei Endpunkten grundsätzlich IP-Konnektivität möglich ist und dass ICMP nicht blockiert wird. Er beweist jedoch nicht, dass TCP-Verbindungen stabil aufgebaut werden können, dass Path MTU stimmt,…

Routing-Blackhole: Identifikation mit Traceroute + Routing-Table-Check

Ein Routing-Blackhole gehört zu den frustrierendsten Fehlerbildern im Betrieb: Der Zielhost „existiert“, DNS stimmt, manchmal geht sogar ein Ping bis zu einem bestimmten Punkt – und trotzdem verschwinden Pakete irgendwo im Netz, ohne dass eine saubere Fehlermeldung zurückkommt. Genau deshalb sind zwei Werkzeuge in Kombination so wirkungsvoll: Traceroute zeigt Ihnen, wo ein Pfad sichtbar endet…