Metrics für Nginx: Exporter, Histogramme und RED KPIs

Die Beobachtung von Nginx ist entscheidend für den stabilen Betrieb von Web-Stacks. Metriken geben Einblicke in Traffic, Latenzen und Fehlerhäufigkeiten, während Histogramme und RED-KPIs (Rate, Errors, Duration) eine schnelle Einschätzung der Systemgesundheit ermöglichen. Dieser Artikel zeigt, wie Nginx-Metriken exportiert, interpretiert und für Monitoring-Systeme aufbereitet werden. Nginx Exporter für Prometheus Ein Nginx Exporter sammelt interne Metriken…

File Descriptor Limits: ulimit, systemd und Nginx für High Concurrency

File Descriptor (FD) Limits sind eine zentrale Stellschraube, wenn es darum geht, Webserver wie Nginx für hohe gleichzeitige Verbindungen zu skalieren. Jeder offene Socket, jede geöffnete Datei oder Pipe verbraucht ein File Descriptor. Standardmäßig ist die Zahl der FDs pro Prozess begrenzt, was bei hohen Lasten schnell zu “too many open files” Fehlern führt. In…

Tracing von Reverse Proxies: Wo Latenz wirklich entsteht

Das Verständnis von Latenzen in modernen Web-Stacks ist entscheidend, um die Performance für Endanwender zu optimieren. Reverse Proxies wie Nginx oder Apache sind oft die erste Anlaufstelle für eingehende Requests, doch die tatsächliche Verzögerung kann sowohl auf dem Proxy als auch auf den nachgelagerten Applikationsservern entstehen. Tracing ermöglicht es, die Latenzquellen genau zu identifizieren und…

Ephemeral Port Exhaustion: Ursachen und Fixes in Web-Stacks

Ephemeral Port Exhaustion ist ein häufig übersehenes Problem in hochfrequentierten Web-Stacks. Jeder ausgehende TCP/UDP-Request eines Servers verwendet einen temporären Port (Ephemeral Port), der nach Abschluss der Verbindung für eine gewisse Zeit blockiert bleibt. Bei hoher Last kann dies dazu führen, dass keine neuen ausgehenden Verbindungen mehr aufgebaut werden können, was zu Timeouts, fehlerhaften API-Calls oder…

Alert Engineering: Sinnvolle Web-Stack Alerts ohne Alarmflut

In modernen Web-Stapeln ist die Überwachung der Infrastruktur entscheidend, um Ausfälle frühzeitig zu erkennen und Service-Level-Agreements einzuhalten. Alerts sind dabei das zentrale Werkzeug, um Probleme proaktiv zu adressieren. Gleichzeitig können falsch konfigurierte Alerts schnell zu einer Alarmflut führen, die Teams überlastet und kritische Signale verwässert. Dieses Tutorial zeigt, wie man Alerts für Web-Stacks sinnvoll definiert…

TCP Retransmits & Latency: Netzwerkprobleme vs. App-Probleme trennen

TCP Retransmits und erhöhte Latenz sind in Web- und Applikations-Stacks ein häufiges Symptom für Netzwerkprobleme. Allerdings führen sie oft zu Verwirrung, weil ähnliche Symptome auch von der Anwendung selbst oder vom Server-Stack verursacht werden können. In diesem Artikel lernen Sie, wie Sie TCP Retransmits messen, die Ursachen zwischen Netzwerk- und Applikationsebene unterscheiden und praktische Maßnahmen…

MTU/MSS Issues: Wenn nur manche Clients Timeouts haben

MTU- (Maximum Transmission Unit) und MSS-Probleme treten in Web- und Netzwerk-Stacks häufig auf, wenn nur bestimmte Clients Timeouts oder Verbindungsabbrüche erleben. Diese Probleme entstehen typischerweise durch Fragmentierung, Path MTU Discovery (PMTUD) oder falsch konfigurierte Netzwerkgeräte. In diesem Artikel erklären wir, wie MTU und MSS funktionieren, welche Auswirkungen sie auf Web-Stacks haben und wie Sie Probleme…

IPv6 Dual-Stack Betrieb: Happy Eyeballs, DNS und Observability

Der Betrieb von Web-Stacks in einer dualen IPv4/IPv6-Umgebung stellt Administratoren vor neue Herausforderungen in Bezug auf Konnektivität, Latenz und Monitoring. Insbesondere das Zusammenspiel von DNS, Happy Eyeballs und Observability ist entscheidend, um eine stabile Nutzererfahrung sicherzustellen. In diesem Artikel erläutern wir die Grundlagen des Dual-Stack-Betriebs, zeigen Best Practices für Happy Eyeballs, optimieren DNS-Konfigurationen und demonstrieren,…

PostgreSQL Connection Pooling: pgbouncer richtig dimensionieren

In modernen Web- und Applikationsumgebungen kann die Anzahl gleichzeitiger PostgreSQL-Verbindungen schnell die maximal erlaubte Grenze überschreiten. Dies führt zu verzögerten Anfragen oder Fehlern wie „too many connections“. Connection Pooling mit PgBouncer bietet hier eine performante Lösung, um die Anzahl aktiver Verbindungen zu kontrollieren, die Latenz zu senken und den Datenbankserver zu entlasten. Dieser Artikel zeigt…

MySQL Connection Storms verhindern: Limits, Pools und Backpressure

In hochfrequentierten Webanwendungen können MySQL-Datenbanken schnell durch eine Flut gleichzeitiger Verbindungsanfragen überlastet werden – ein sogenannter „Connection Storm“. Diese Situationen entstehen typischerweise nach Deployments, bei Traffic-Spitzen oder bei schlecht konfigurierten Connection-Pools. Connection Storms führen zu Timeouts, Abbrüchen und einer insgesamt schlechten Performance. In diesem Artikel werden praxisnahe Strategien vorgestellt, um Limits, Pools und Backpressure effektiv…