SNI-Issue: Warum Domain A geht, Domain B aber nicht – bei derselben IP

Ein SNI-Issue ist eine der häufigsten Ursachen für das irritierende Fehlerbild: „Domain A geht, Domain B aber nicht – bei derselben IP“. Für ein NOC wirkt das zunächst wie ein klassischer Netzwerk-Incident: Die IP ist erreichbar, Ping funktioniert, TCP/443 baut sich auf – und trotzdem liefert nur eine der beiden Domains eine korrekte Website, während…

Dependency-Outage: L7-Probleme belegen, ohne das Network zu beschuldigen

Ein Dependency-Outage ist operativ besonders heikel: Die betroffene Anwendung fällt (teilweise) aus, Nutzer melden „Seite lädt nicht“, Dashboards zeigen rote Kurven – und sehr schnell steht das Netzwerk im Verdacht. In vielen Fällen liegt die Ursache jedoch auf Layer 7: Eine externe API ist down, ein internes Backend liefert 5xx, ein Identity-Provider ist langsam, oder…

Kompression vs. Verschlüsselung-Overhead: Auswirkungen auf Produktionslatenz

Die Frage „Kompression vs. Verschlüsselung-Overhead“ wird in der Praxis oft zu spät gestellt: erst dann, wenn Produktionslatenz steigt, Timeouts zunehmen oder einzelne Nutzergruppen plötzlich schlechtere Antwortzeiten sehen. Dabei ist die Ursache häufig kein „mysteriöses Netzwerkproblem“, sondern ein Zusammenspiel aus CPU-Kosten, Paketgrößen, Round Trips und Protokoll-Mechanik. Kompression kann die übertragenen Bytes drastisch reduzieren und damit Bandbreite…

Encoding-/Serialisierungs-Bugs, die wie Netzwerkprobleme aussehen

Encoding-/Serialisierungs-Bugs gehören zu den unangenehmsten Fehlerklassen im Produktionsbetrieb, weil sie häufig wie „Netzwerkprobleme“ aussehen: Requests hängen, Antworten sind unvollständig, Clients sehen Timeouts oder „Connection reset“, und Monitoring zeigt sporadische 4xx/5xx-Spitzen ohne klaren Root Cause. In vielen Fällen ist das Netzwerk jedoch gesund – die Störung entsteht erst, wenn Daten von einer Komponente in eine andere…

mTLS im Service Mesh: Failure Modes, die das NOC beherrschen muss

mTLS im Service Mesh ist für viele Plattformteams ein Sicherheitsgewinn, für das NOC aber oft eine neue Fehlerklasse: Verbindungen sind „da“, DNS funktioniert, Ports sind offen – und trotzdem scheitern Requests mit Reset, 503, 403 oder Timeouts. Der Grund ist simpel: Mit einem Service Mesh wandert ein Teil der Verbindungslogik aus der Applikation in Sidecars,…

TLS-Offload vs. End-to-End-Verschlüsselung: Auswirkungen auf Observability

Die Entscheidung zwischen TLS-Offload und End-to-End-Verschlüsselung ist längst nicht mehr nur eine Frage von Performance oder Security-Compliance. In modernen Produktionsumgebungen entscheidet sie maßgeblich darüber, was ein NOC oder Ops-Team überhaupt beobachten kann – und wie schnell sich Incidents triagieren lassen. Bei TLS-Offload wird TLS an einem Load Balancer, Reverse Proxy, Gateway oder CDN terminiert, der…

Certificate-Chain-Issue: Schnellcheck ohne App-Zugriff

Ein Certificate-Chain-Issue ist eine der häufigsten Ursachen für „TLS geht nicht“, „nur manche Clients funktionieren“ oder „Handshake bricht ab“ – und gleichzeitig eine Fehlerklasse, die im NOC oft unnötig eskaliert wird, weil scheinbar „App-Zugriff“ fehlt. In der Praxis lässt sich die Zertifikatskette jedoch in vielen Fällen vollständig von außen bewerten: über den TLS-Handshake selbst, über…

„Handshake Failure“ debuggen mit Minimaldaten fürs NOC

Wenn im NOC ein Incident mit der Meldung „Handshake Failure“ einläuft, fehlt oft das Wichtigste: Kontext. Statt vollständiger Packet Captures oder App-Logs gibt es nur einen Screenshot, eine generische Fehlermeldung aus einem Client und die Erwartung, „mal eben“ die Ursache zu finden. Genau hier hilft ein strukturierter Ansatz: „Handshake Failure“ debuggen mit Minimaldaten fürs NOC.…

Layer 7: HTTP-Status lesen, um das richtige Owner-Team zu bestimmen

Im NOC und im On-Call-Alltag entscheidet häufig nicht die Komplexität eines Incidents über die Lösungszeit, sondern die erste richtige Zuordnung: Wer ist Owner? Gerade bei Applikationsproblemen auf Layer 7 ist die Versuchung groß, „das Netzwerk“ zu eskalieren, weil Nutzer nur „Seite geht nicht“ melden. Dabei liefern HTTP-Antworten – oft schon mit wenigen Minimaldaten – wertvolle…

DNS-Incident-Playbook: Resolver, Cache, TTL und Propagation

Ein DNS-Ausfall fühlt sich für Nutzer oft an wie „das Internet ist kaputt“: Webseiten laden nicht, APIs sind nicht erreichbar, Mail-Server wirken offline – obwohl Netzwerk, Server und Anwendungen gesund sein können. Genau deshalb braucht ein NOC ein klares DNS-Incident-Playbook, das schnell zwischen Resolver-Problemen, Cache-Effekten, TTL-Fallen und echter Propagation unterscheidet. DNS ist ein verteiltes System…