„Nur eine App down“ isolieren (Network oder App?)

Wenn Nutzer melden, dass „nur eine App down“ ist, entsteht fast automatisch die gleiche Diskussion: „Ist das Netzwerk schuld oder ist es die Anwendung?“ Genau dieses Fehlerbild ist im Betrieb besonders wertvoll, weil es oft eine klare Eingrenzung erlaubt – vorausgesetzt, Sie prüfen systematisch und vermeiden typische Denkfehler. Eine einzelne App kann ausfallen, obwohl Internet…

Ping erfolgreich, aber Website lädt nicht: OSI-Analyse Schritt für Schritt

„Ping erfolgreich, aber Website lädt nicht“ ist eines der typischsten und gleichzeitig verwirrendsten Fehlerbilder im Alltag von IT-Support, NOC und Admins. Der Ping vermittelt Sicherheit: Wenn eine externe IP antwortet, muss „das Internet“ doch funktionieren. Trotzdem bleiben Browser-Tabs weiß, Seiten drehen endlos im Ladezustand oder brechen mit Fehlermeldungen wie „Verbindung wurde zurückgesetzt“, „DNS_PROBE_FINISHED_NXDOMAIN“ oder „SSL_ERROR_HANDSHAKE_FAILURE_ALERT“…

Eskalations-Checkliste an L3: Minimale Pflicht-Evidence

Eine saubere Eskalations-Checkliste an L3 ist kein Bürokratie-Übel, sondern ein Zeitmultiplikator: Je besser die minimale Pflicht-Evidence ist, desto schneller kann ein L3-Team den Fehler reproduzieren, den Blast Radius bewerten und die richtige Maßnahme einleiten. In der Praxis scheitern Eskalationen selten an fehlender Kompetenz, sondern an fehlender Vergleichbarkeit: „Geht nicht“ ohne Scope, ohne klare Zieldefinition (IP/Port/Protokoll),…

„Request Timed Out“ – Problem welcher Schicht? So bestimmst du es

„Request Timed Out“ ist eine der häufigsten Fehlermeldungen im Netzwerk- und Applikationsumfeld – und gleichzeitig eine der am leichtesten misszuverstehenden. Viele interpretieren sie automatisch als „Internet kaputt“ oder „Server down“. In Wirklichkeit bedeutet „Request Timed Out“ nur eines: Eine erwartete Antwort ist innerhalb eines definierten Zeitfensters nicht angekommen. Mehr nicht. Genau deshalb ist die entscheidende…

Wann Packet Capture? Indikatoren und Nutzen fürs RCA

Die Frage „Wann Packet Capture?“ entscheidet im Betrieb oft darüber, ob ein Incident in Minuten eingegrenzt wird oder ob er sich über Stunden durch Vermutungen, Team-Ping-Pong und widersprüchliche Symptome zieht. Ein Packet Capture (PCAP) ist nicht „mehr Daten“, sondern häufig der schnellste Weg zu belastbaren Beweisen: Sie sehen, was wirklich über die Leitung geht –…

DNS-Fehler (SERVFAIL/NXDOMAIN): Welche Schicht? + schneller Debug

DNS-Fehler wie SERVFAIL und NXDOMAIN gehören zu den häufigsten Ursachen, wenn Websites nicht laden, APIs ausfallen oder Anwendungen „plötzlich“ nicht mehr erreichbar sind. Gleichzeitig sorgen sie für Verwirrung: Ist das ein Netzwerkproblem, ein Serverproblem oder „nur“ ein DNS-Thema? Die kurze Antwort lautet: DNS ist in erster Linie Layer 7 (Application) im OSI-Modell – aber die…

DNS- vs. Routing-Probleme unterscheiden (mit klaren Beweisen)

DNS- vs. Routing-Probleme unterscheiden zu können, ist eine Kernkompetenz im IT-Betrieb: Beide Fehlerbilder fühlen sich für Nutzer oft gleich an („Internet geht nicht“, „Website lädt nicht“), erfordern aber völlig unterschiedliche Maßnahmen und Eskalationswege. Wer hier rät, verliert Zeit, produziert unnötige Changes und eskaliert an das falsche Team. Der entscheidende Unterschied: DNS-Probleme betreffen die Namensauflösung (Hostname…

Ping normal, aber App langsam: Latenz-Breakdown von L3–L7

„Ping normal, aber App langsam“ ist ein Klassiker im Betrieb: Die Netzwerkbasis wirkt stabil, ICMP-Roundtrips sind niedrig, keine Timeouts – und trotzdem beschweren sich Nutzer über zähe Ladezeiten, hängende Logins oder träge API-Responses. Genau hier hilft ein strukturierter Latenz-Breakdown von Layer 3 bis Layer 7. Denn Ping misst nur einen sehr kleinen Ausschnitt: meist ICMP…

Trace-Sampling: Risiken im Incident und Mitigation

Trace-Sampling: Risiken im Incident und Mitigation ist ein Thema, das viele Teams erst dann richtig ernst nehmen, wenn ein Incident bereits läuft und plötzlich „die wichtigen Traces fehlen“. Sampling ist notwendig, weil vollständiges Distributed Tracing bei hohen Request-Raten schnell teuer wird und die Telemetrie-Pipeline (Agent, Collector, Backend) überlasten kann. Gleichzeitig ist Sampling ein Risiko: Es…

„Single Source of Truth“ während eines Outage festlegen

„Single Source of Truth“ während eines Outage festlegen ist einer der wirkungsvollsten Hebel, um Chaos, Doppelarbeit und widersprüchliche Kommunikation im Incident zu vermeiden. Sobald ein Ausfall beginnt, entstehen parallel viele Informationsströme: Monitoring-Alerts, Slack-/Chat-Nachrichten, Ticket-Kommentare, E-Mails, Statuspage-Updates, Kundentickets und interne Eskalationen. Ohne eine zentrale, verbindliche Informationsquelle passiert schnell das typische Muster: Zwei Teams arbeiten an derselben…