Case Study: „Ping normal, aber App langsam“ (OSI-Diagnose Schritt für Schritt)

Die Case Study „Ping normal, aber App langsam“ ist ein Klassiker im Betrieb verteilter Systeme – und gleichzeitig eine der häufigsten Fehlinterpretationen im On-Call: Weil ICMP-Ping gute Werte liefert, wird das Problem vorschnell als „nicht Netzwerk“ eingeordnet und die Diagnose springt direkt in Applikationslogs. In der Praxis ist das riskant. Ping misst nur Erreichbarkeit auf…

Latency Budgets pro Service erstellen (Microservices Latency Budgeting)

„Latency Budgets pro Service erstellen“ ist eine der wirksamsten Methoden, um Microservices-Architekturen beherrschbar zu halten – insbesondere dann, wenn Nutzer zwar „irgendwie“ noch Antworten bekommen, aber die gefühlte Performance durch Tail Latency (P95/P99) zunehmend schlechter wird. Microservices Latency Budgeting bedeutet, dass Sie ein Ende-zu-Ende-Latenzziel (z. B. für eine Nutzer-Journey oder eine kritische API) bewusst in…

Wann zum Cloud Provider eskalieren? Evidence-Checkliste

„Wann zum Cloud Provider eskalieren?“ ist eine der wichtigsten On-Call-Fragen in Cloud-Betriebsmodellen, weil sie direkt über Time-to-Mitigation, Kundenimpact und die Qualität der späteren Root Cause Analysis entscheidet. Zu frühe Eskalationen verursachen unnötige Schleifen („Bitte erst diese Basisdaten liefern“), zu späte Eskalationen kosten wertvolle Minuten, wenn die Ursache tatsächlich in der Provider-Schicht liegt (z. B. AZ-Störung,…

„Packet Loss“ für SRE richtig lesen: Wann es wirklich ein Netzwerkproblem ist

„Packet Loss“ ist für SRE eines der am häufigsten missverstandenen Signale im Betrieb: Ein Monitoring-Chart zeigt 1–3% Verlust, und sofort wird „Netzwerkproblem“ ausgerufen – während die eigentliche Ursache in Wirklichkeit in überlasteten Hosts, fehlerhaften NIC-Treibern, Queue-Drops, asymmetrischem Routing, MTU-Mismatches, TCP-Retransmits oder sogar in einem Messartefakt liegt. Gleichzeitig gibt es die gegenteilige Falle: Reale Paketverluste im…

Intermittierende Issues in Produktion: Evidence sammeln ohne PCAP

Intermittierende Issues in Produktion sind für SRE, SecOps und Plattformteams besonders frustrierend: Der Fehler tritt kurz auf, verschwindet wieder und hinterlässt kaum verwertbare Spuren. Genau in diesen Situationen lautet die Standardfrage im War Room: „Haben wir einen PCAP?“ – und ebenso häufig ist die Antwort: „Nein, aus Datenschutz-, Performance- oder Betriebsgründen nicht.“ Die gute Nachricht:…

API-Inventar & Attack Surface: Wie man es aktuell hält

Ein aktuelles API-Inventar ist die Grundlage jeder belastbaren Sicherheitsstrategie für moderne Anwendungen. Ohne klare Übersicht über vorhandene Schnittstellen, Versionen, Authentifizierungswege und Expositionen entsteht ein „blinder Fleck“, in dem Shadow APIs, veraltete Endpunkte oder falsch konfigurierte Gateways unbemerkt bleiben. Das Hauptkeyword „API-Inventar & Attack Surface“ beschreibt dabei zwei untrennbare Aufgaben: Erstens die vollständige Erfassung aller APIs…

Bot-Mitigation: Bösartige Bots vs. legitime Automation unterscheiden

Bot-Mitigation ist heute ein zentrales Thema für Betreiber von Websites, Shops und APIs: Automatisierter Traffic nimmt zu, und nicht jede Automation ist automatisch „böse“. Suchmaschinen-Crawler, Monitoring-Checks, Uptime-Bots, Preisvergleichsdienste, Integrationen von Partnern oder interne Skripte gehören häufig zum normalen Betrieb. Gleichzeitig nutzen Angreifer bösartige Bots für Credential Stuffing, Scraping, Scalping, Inventar-Blockaden oder API-Missbrauch. Die entscheidende Herausforderung…

Web/API-Hardening-Checkliste: WAF + Gateway + Auth + Monitoring

Eine Web/API-Hardening-Checkliste ist dann wirklich wertvoll, wenn sie nicht als einmaliges Audit-Dokument endet, sondern als wiederholbarer Sicherheitsstandard für WAF, API Gateway, Authentifizierung und Monitoring dient. Das Hauptkeyword „Web/API-Hardening-Checkliste“ beschreibt dabei ein pragmatisches Ziel: Angriffsflächen reduzieren, Fehlkonfigurationen vermeiden und die Erkennung sowie Reaktion auf Web- und API-Angriffe messbar verbessern. In modernen Umgebungen ist Hardening keine einzelne…

Layer-7-DDoS: Detection über Ratios, Header und Behavior

Ein Layer-7-DDoS (auch Application-Layer-DDoS oder HTTP-Flood genannt) zielt nicht primär darauf ab, Ihre Leitung „vollzulaufen“, sondern darauf, Anwendungen durch scheinbar legitime Anfragen zu überlasten. Im Unterschied zu volumetrischen Angriffen auf Layer 3/4 wirkt ein Layer-7-DDoS oft wie normaler Web-Traffic: echte URLs, typische Methoden wie GET/POST, gültige TLS-Verbindungen und sogar Browser-ähnliche Header. Genau deshalb ist die…

OSI-Modell für SRE: Kompletter Leitfaden zum Mapping „Netzwerkproblem vs. Applikation“

Das OSI-Modell wirkt auf den ersten Blick wie Theorie aus dem Netzwerkunterricht. Für SRE-Teams ist es jedoch ein sehr praktisches Denkwerkzeug, um in Incidents schnell zu entscheiden: Liegt ein Netzwerkproblem vor oder ist es eine Applikationsstörung? Genau diese Trennung ist in der Realität oft schwer, weil moderne Systeme mehrere Schichten gleichzeitig nutzen: CDN, Load Balancer,…