„Packet Loss“ für SRE richtig lesen: Wann es wirklich ein Netzwerkproblem ist

„Packet Loss“ ist für SRE eines der am häufigsten missverstandenen Signale im Betrieb: Ein Monitoring-Chart zeigt 1–3% Verlust, und sofort wird „Netzwerkproblem“ ausgerufen – während die eigentliche Ursache in Wirklichkeit in überlasteten Hosts, fehlerhaften NIC-Treibern, Queue-Drops, asymmetrischem Routing, MTU-Mismatches, TCP-Retransmits oder sogar in einem Messartefakt liegt. Gleichzeitig gibt es die gegenteilige Falle: Reale Paketverluste im…

Intermittierende Issues in Produktion: Evidence sammeln ohne PCAP

Intermittierende Issues in Produktion sind für SRE, SecOps und Plattformteams besonders frustrierend: Der Fehler tritt kurz auf, verschwindet wieder und hinterlässt kaum verwertbare Spuren. Genau in diesen Situationen lautet die Standardfrage im War Room: „Haben wir einen PCAP?“ – und ebenso häufig ist die Antwort: „Nein, aus Datenschutz-, Performance- oder Betriebsgründen nicht.“ Die gute Nachricht:…

RCA/Postmortem für network-related Incidents: Template + Beispiel-Action-Items

Ein gutes RCA/Postmortem für network-related Incidents ist mehr als eine nachträgliche Fehlerbeschreibung: Es ist ein belastbares Arbeitsdokument, das Ursachen, Ketteneffekte und organisatorische Lücken so klar macht, dass daraus konkrete, nachprüfbare Verbesserungen entstehen. Gerade bei Netzwerkvorfällen ist das anspruchsvoll, weil Symptome häufig „unscharf“ wirken („Timeouts“, „Packet Loss“, „App langsam“), Ursachen über mehrere Schichten verteilt sind und…

Bot-Mitigation: Bösartige Bots vs. legitime Automation unterscheiden

Bot-Mitigation ist heute ein zentrales Thema für Betreiber von Websites, Shops und APIs: Automatisierter Traffic nimmt zu, und nicht jede Automation ist automatisch „böse“. Suchmaschinen-Crawler, Monitoring-Checks, Uptime-Bots, Preisvergleichsdienste, Integrationen von Partnern oder interne Skripte gehören häufig zum normalen Betrieb. Gleichzeitig nutzen Angreifer bösartige Bots für Credential Stuffing, Scraping, Scalping, Inventar-Blockaden oder API-Missbrauch. Die entscheidende Herausforderung…

Web/API-Hardening-Checkliste: WAF + Gateway + Auth + Monitoring

Eine Web/API-Hardening-Checkliste ist dann wirklich wertvoll, wenn sie nicht als einmaliges Audit-Dokument endet, sondern als wiederholbarer Sicherheitsstandard für WAF, API Gateway, Authentifizierung und Monitoring dient. Das Hauptkeyword „Web/API-Hardening-Checkliste“ beschreibt dabei ein pragmatisches Ziel: Angriffsflächen reduzieren, Fehlkonfigurationen vermeiden und die Erkennung sowie Reaktion auf Web- und API-Angriffe messbar verbessern. In modernen Umgebungen ist Hardening keine einzelne…

Layer-7-DDoS: Detection über Ratios, Header und Behavior

Ein Layer-7-DDoS (auch Application-Layer-DDoS oder HTTP-Flood genannt) zielt nicht primär darauf ab, Ihre Leitung „vollzulaufen“, sondern darauf, Anwendungen durch scheinbar legitime Anfragen zu überlasten. Im Unterschied zu volumetrischen Angriffen auf Layer 3/4 wirkt ein Layer-7-DDoS oft wie normaler Web-Traffic: echte URLs, typische Methoden wie GET/POST, gültige TLS-Verbindungen und sogar Browser-ähnliche Header. Genau deshalb ist die…

OSI-Modell für SRE: Kompletter Leitfaden zum Mapping „Netzwerkproblem vs. Applikation“

Das OSI-Modell wirkt auf den ersten Blick wie Theorie aus dem Netzwerkunterricht. Für SRE-Teams ist es jedoch ein sehr praktisches Denkwerkzeug, um in Incidents schnell zu entscheiden: Liegt ein Netzwerkproblem vor oder ist es eine Applikationsstörung? Genau diese Trennung ist in der Realität oft schwer, weil moderne Systeme mehrere Schichten gleichzeitig nutzen: CDN, Load Balancer,…

SSRF in der Cloud: Funktionsweise, Impact und praktische Defense

SSRF in der Cloud (Server-Side Request Forgery) zählt zu den gefährlichsten Web-Schwachstellen moderner Cloud-Architekturen, weil sie scheinbar harmlose Funktionen wie URL-Importe, Webhooks, Bild- oder PDF-Renderer, Link-Previews und Integrationen mit internen Services missbraucht. Dabei zwingt ein Angreifer Ihre Anwendung, serverseitig Anfragen an Ziele zu senden, die der Angreifer selbst nicht direkt erreichen dürfte – etwa interne…

End-to-End-Latenz-SLOs erstellen (DNS→TCP→TLS→HTTP) + Beispiel-Targets

End-to-End-Latenz-SLOs erstellen ist eine der wirkungsvollsten Maßnahmen, um Nutzererlebnis und Betriebssicherheit messbar zu verbessern. In der Praxis scheitern Latenz-SLOs jedoch oft daran, dass sie nur „Server-Latenz“ messen, während der Nutzer eigentlich die gesamte Kette spürt: DNS-Auflösung, TCP-Verbindungsaufbau, TLS-Handshake und schließlich die HTTP-Transaktion inklusive Backend-Verarbeitung. Wer End-to-End denkt, erkennt schneller, ob ein Problem aus dem Netzwerkpfad,…

HTTP Request Smuggling: Konzept, Indikatoren und Mitigation

HTTP Request Smuggling ist eine besonders tückische Klasse von Schwachstellen in modernen Web-Stacks, weil sie nicht primär aus einem einzelnen Programmierfehler in der Anwendung entsteht, sondern aus einem Missverständnis zwischen mehreren HTTP-Komponenten. Typischerweise sind daran ein Reverse Proxy, ein Load Balancer, ein CDN oder eine WAF vor dem eigentlichen Applikationsserver beteiligt. Wenn diese Systeme eine…