Computernetzwerk Ping normal, aber App langsam: Latenz-Breakdown von L3–L7 Trace-Sampling: Risiken im Incident und Mitigation „Single Source of Truth“ während eines Outage festlegen Automatisiertes Evidence Pack: Script/Checkliste fürs On-Call Korrelation CPU-Saturation ↔ Packet Drops ↔ Latenz SLOs pro Dependency: Datenbank, Cache, externe API APM Traces + Flow Logs kombinieren für RCA Runbook für „Spiky Latency“ Synthetic Checks, die nicht täuschen: Design pro Layer Chaos Networking Experiments: Loss/Latenz/Partition Incident-Ready Dashboard: Pflicht-Komponenten fürs On-Call Postmortem-Metriken: Was sollte ergänzt werden? Golden Signals für network-aware SREs „Dashboard Theater“ vermeiden: Metriken, die wirklich genutzt werden Alert Correlation: Alarme nach OSI-Layern gruppieren Packet Capture in der Cloud: Wann es sich lohnt MTR vs. Traceroute: Wann nutzt man welches Tool? DNS-Telemetrie: Resolver-Latenz und Errors messen ←1234567891011121314151617181920…2122232425…2627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778→