Cipher-Suite-Mismatch: „Works on Some Clients“ debuggen

Ein Cipher-Suite-Mismatch ist einer der klassischen Gründe, warum ein Dienst „auf manchen Clients funktioniert“ und auf anderen scheinbar zufällig scheitert. In der Praxis sieht das dann so aus: Browser A lädt die Seite problemlos, Browser B meldet „Secure Connection Failed“, ein Legacy-Client kann sich gar nicht verbinden, während moderne SDKs stabil laufen. Besonders tückisch ist,…

SNI/ALPN-Troubleshooting: Wenn nur bestimmte Domains ausfallen

SNI/ALPN-Troubleshooting wird immer dann zum entscheidenden Skill, wenn in der Produktion „nur bestimmte Domains ausfallen“, obwohl IP, Load Balancer und Zertifikate auf den ersten Blick korrekt wirken. Typisch sind Fälle wie: api.example.com ist erreichbar, login.example.com bricht während des TLS-Handshakes ab; oder nur Clients mit HTTP/2 (bzw. gRPC) melden Fehler, während klassische Browser über HTTP/1.1 funktionieren.…

TLS-Offload vs. End-to-End: Auswirkungen auf Zero Trust und Observability

TLS-Offload vs. End-to-End ist eine Architekturentscheidung, die weit über „Performance“ hinausgeht: Sie bestimmt, wo Vertrauen endet, wo Identitäten geprüft werden und welche Observability-Signale Ihnen im Incident-Fall wirklich zur Verfügung stehen. In klassischen Setups terminiert TLS am Load Balancer, am Reverse Proxy oder am API Gateway – die Anwendung erhält danach „nur noch“ HTTP im internen…

Compression-/Encoding-Overhead: Einfluss auf Latenz und CPU

Compression-/Encoding-Overhead ist einer dieser Performance-Faktoren, der in der Praxis oft unterschätzt wird: Kompression spart Bandbreite und kann Latenz senken – gleichzeitig kostet sie CPU, beeinflusst Tail-Latenz und kann unter Last sogar zum Flaschenhals werden. Dazu kommen Encoding-Entscheidungen wie JSON vs. Protobuf, Base64 in Payloads oder Zeichenkodierungen, die nicht nur die Größe, sondern auch die Verarbeitungskosten…

Certificate-Chain-Issue: Schnelldiagnose ohne Source-Code-Zugriff

Ein Certificate-Chain-Issue gehört zu den häufigsten Ursachen für „plötzliche“ TLS-Fehler in Produktion – und gleichzeitig zu den frustrierendsten, wenn Sie keinen Source-Code-Zugriff auf die Anwendung haben. Typische Symptome sind: Bestimmte Clients können nicht mehr verbinden, Browser melden „Zertifikat nicht vertrauenswürdig“, API-Calls scheitern mit „unable to get local issuer certificate“, oder nur einzelne Regionen/Proxys schlagen fehl.…

„Handshake Storm“ reduzieren: Connection Reuse für SRE tunen

Ein Handshake Storm ist eines der typischsten „unsichtbaren“ Produktionsprobleme: Das System wirkt, als wäre „das Netzwerk langsam“ oder „die CPU plötzlich hoch“, während die eigentliche Ursache eine Flut aus neuen Verbindungen und TLS-Handshakes ist. Besonders in Microservices-, Kubernetes- und Service-Mesh-Umgebungen kann so ein Sturm innerhalb weniger Minuten entstehen – zum Beispiel nach einem Deployment, einer…

Layer 7 für SRE: HTTP-Semantik, Retries und Idempotency

Für viele SRE-Teams ist „das Netzwerk“ oft der erste Verdacht, wenn Latenzen steigen oder Fehlerquoten kippen. In der Praxis liegt die Ursache jedoch häufig auf Layer 7 – also in der Anwendungsschicht: HTTP-Semantik, Statuscodes, Caching-Regeln, Timeouts, Retries und vor allem Idempotency. Wer Layer 7 für SRE beherrscht, kann Incidents schneller triagieren, Retry-Stürme vermeiden und eine…

DNS als Single Point of Failure: Oft vergessene Reliability-Praktiken

DNS als Single Point of Failure ist einer der häufigsten Gründe, warum ansonsten robuste Systeme plötzlich „komplett down“ wirken – obwohl Compute, Datenbank und Load Balancer eigentlich laufen. Der Grund ist simpel: Ohne funktionierende Namensauflösung finden Clients die richtigen Ziele nicht. Schon kleine DNS-Störungen (Timeouts, falsche Antworten, abgelaufene Records, fehlgeschlagene Zone-Transfers oder fehlerhafte Delegationen) können…

„502/503/504“-Playbook: Upstream Down vs. Timeout vs. Misroute trennen

Ein sauberer Umgang mit „502/503/504“-Playbook-Incidents entscheidet oft darüber, ob ein Team in Minuten zur Ursache kommt oder stundenlang zwischen „Netzwerk“, „Load Balancer“ und „App“ pendelt. Die Herausforderung: 502 Bad Gateway, 503 Service Unavailable und 504 Gateway Timeout sind fast immer Proxy- oder Gateway-Sicht auf ein Problem „hinter“ dem Gateway – nicht zwingend die eigentliche Root…

API-Gateway-Patterns: Observability, Rate Limits und Error Budget

API-Gateway-Patterns sind in modernen Plattformen ein zentrales Gestaltungselement, weil sie Schnittstellen standardisieren, Sicherheit konsolidieren und gleichzeitig die operative Steuerbarkeit verbessern. Gerade bei Microservices, Public APIs oder Partner-Integrationen wird das Gateway zur „Front Door“: Es entscheidet, welche Requests überhaupt weitergeleitet werden, wie stark Traffic gedrosselt wird und welche Signale für Observability und Incident Response verfügbar sind.…