SPAN/ERSPAN: Best Practices ohne Oversubscription

Wer in produktiven Netzwerken Pakete mitschneiden möchte, landet früher oder später bei SPAN/ERSPAN: Best Practices ohne Oversubscription. Genau an dieser Stelle entstehen jedoch die meisten Fehler: Die Spiegelung wird schnell aktiviert, der Analyzer-Port bekommt „irgendwie“ Traffic, und erst später fällt auf, dass entscheidende Frames fehlen, Zeitstempel unbrauchbar sind oder das Monitoring selbst zum Risiko für…

Schnelles PCAP mit tcpdump: Filter, die man können muss

Wer im Incident-Fall unter Zeitdruck steht, braucht vor allem eines: Schnelles PCAP mit tcpdump: Filter, die man können muss. Genau dieses Thema entscheidet oft darüber, ob ein Problem in Minuten eingegrenzt oder in stundenlangen Analyse-Sitzungen „verrauscht“ wird. In der Praxis ist tcpdump nicht schwer, aber die Qualität der Ergebnisse hängt fast vollständig von den Filtern…

TCP-Handshake in Wireshark lesen: Fürs NOC

Wer im Network Operations Center arbeitet, begegnet täglich Incidents mit Symptomen wie „Anwendung hängt“, „Login dauert ewig“, „API antwortet sporadisch“ oder „Verbindung bricht sofort ab“. In vielen dieser Fälle ist der erste belastbare Prüfpunkt der Verbindungsaufbau auf Transportebene. Genau hier hilft das Thema TCP-Handshake in Wireshark lesen: Fürs NOC. Wer den Drei-Wege-Handshake sauber interpretiert, kann…

DNS in PCAP diagnostizieren: Cache vs. Resolver vs. Authoritative

Bei Störungen im Betrieb ist DNS oft der erste unsichtbare Engpass: Anwendungen melden „Timeout“, Webseiten laden nur teilweise, APIs liefern sporadisch Fehler oder Verbindungen scheitern scheinbar zufällig. Genau hier wird das Thema DNS in PCAP diagnostizieren: Cache vs. Resolver vs. Authoritative zum entscheidenden Werkzeug für NOC, SRE und Netzwerkbetrieb. Wer in Paketmitschnitten sauber trennt, ob…

Retransmission-Spike erkennen – und die Auswirkungen verstehen

Ein plötzlicher Leistungsabfall in produktiven Netzwerken wirkt auf den ersten Blick oft wie ein Serverproblem, eine fehlerhafte Applikation oder ein überlasteter Internetzugang. In vielen Fällen liegt die eigentliche Ursache jedoch tiefer im Datenpfad: Ein Retransmission-Spike erkennen – und die Auswirkungen verstehen ist deshalb eine Kernkompetenz für NOC, Betrieb, SRE und Netzwerkteams. Retransmissions sind grundsätzlich kein…

Synthetic Monitoring ohne False Alarms: Best Practices

Synthetic Monitoring ohne False Alarms: Best Practices ist für moderne IT- und Netzbetriebsmodelle kein Nice-to-have mehr, sondern ein zentraler Baustein für stabile Services und effiziente Incident-Prozesse. Sobald digitale Produkte geschäftskritisch werden, reicht es nicht aus, nur auf echte Nutzerbeschwerden oder rein reaktives Infrastruktur-Monitoring zu warten. Synthetic Monitoring ermöglicht es, definierte User Journeys, API-Transaktionen und Erreichbarkeit…

Täuschende Health Checks: Wann „UP“ obwohl down

Das Thema Täuschende Health Checks: Wann „UP“ obwohl down betrifft heute nahezu jede produktive IT-Landschaft – von klassischen Webanwendungen über Microservices bis zu hybriden Plattformen mit Load Balancern, Queues und externen Abhängigkeiten. In vielen Umgebungen gilt ein Service als „gesund“, sobald ein Endpoint mit HTTP 200 antwortet oder ein TCP-Port offen ist. Genau darin liegt…

Korrelation: Interface Errors + BGP Flap + Loss Spike

Die Analyse Korrelation: Interface Errors + BGP Flap + Loss Spike ist im NOC-Alltag einer der wertvollsten Hebel, um aus verstreuten Einzelalarmen eine belastbare Ursache abzuleiten. Genau hier scheitern viele Teams: Interface-Fehler werden isoliert als physisches Problem betrachtet, BGP-Flaps als Routing-Instabilität behandelt und Loss-Spikes als „irgendwo im Netz“ eingeordnet. In der Realität treten diese Signale…

Incident-Ready Dashboard bauen: Was muss drauf?

Ein Incident-Ready Dashboard bauen ist keine Designübung, sondern eine operative Entscheidung über Reaktionsgeschwindigkeit, Eskalationsqualität und Kundenauswirkungen. In vielen Teams sehen Dashboards auf den ersten Blick modern aus, helfen im Störfall aber kaum weiter: zu viele Widgets, zu wenig Kontext, keine klare Priorisierung und kein belastbarer Bezug zwischen Symptom, Ursache und Impact. Genau deshalb braucht ein…

Alert Tuning: Noise reduzieren ohne Signal zu verlieren

Alert Tuning: Noise reduzieren ohne Signal zu verlieren ist eine der wirkungsvollsten Disziplinen im modernen IT-Betrieb, weil sie direkt über Reaktionsgeschwindigkeit, Incident-Qualität und Teambelastung entscheidet. In vielen Umgebungen ist das Problem nicht fehlendes Monitoring, sondern ein Übermaß an schlecht kalibrierten Alarmen: dieselbe Störung löst dutzende Events aus, niedrige Prioritäten verdrängen kritische Hinweise, und On-Call-Teams verlieren…