Log Shipping Setup: Fluent Bit/Vector/Loki Agent robust betreiben

Log Shipping ist ein zentraler Bestandteil moderner Observability-Architekturen. Mit Tools wie Fluent Bit, Vector oder dem Loki Agent lassen sich Logs zuverlässig von Linux-Servern zu zentralen Systemen transportieren, aggregieren und analysieren. Ein robustes Setup gewährleistet, dass Logs auch bei Netzwerkunterbrechungen, Systemlastspitzen oder Softwarefehlern nicht verloren gehen und gleichzeitig sicher übertragen werden. Agent-Auswahl und Installationsstrategie Die…

OpenTelemetry Collector auf Linux: Gateway Pattern und Sampling

OpenTelemetry Collector ist das zentrale Gateway für Observability-Daten wie Metriken, Traces und Logs. Auf Linux-Systemen ermöglicht es, Telemetrie-Daten aus verschiedenen Anwendungen zu sammeln, zu transformieren und an Backend-Systeme wie Prometheus, Grafana, Jaeger oder Loki weiterzuleiten. Ein Gateway-Setup mit gezieltem Sampling reduziert die Datenmenge und sorgt für performantes Monitoring ohne Informationsverlust. Installation des OpenTelemetry Collectors Der…

Baseline Dashboards: CPU, Memory PSI, Disk Latency, Network Errors

Ein solides Baseline-Dashboard ist für jeden Linux-Server essentiell, um die Systemperformance kontinuierlich zu überwachen und Abweichungen frühzeitig zu erkennen. Dabei sollten CPU-Auslastung, Memory Pressure, Disk-Latenzen und Netzwerkfehler im Fokus stehen. Eine korrekte Basisermittlung ermöglicht es, Alarmgrenzen zu definieren und die Infrastruktur effizient zu betreiben. CPU Monitoring Die CPU-Auslastung ist ein zentraler Indikator für Systemlast und…

Alert Engineering im Setup: High-Signal Alarme out-of-the-box

Ein effektives Alert Engineering im Linux-Setup ist entscheidend, um kritische Systemzustände frühzeitig zu erkennen und unnötige Alarmfluten zu vermeiden. Out-of-the-box High-Signal Alarme helfen, die relevanten Ereignisse von unwichtigen zu trennen und ermöglichen schnelle Reaktionen ohne Informationsüberflutung. Grundprinzipien von High-Signal Alerts High-Signal Alarme zeichnen sich dadurch aus, dass sie nur dann ausgelöst werden, wenn ein tatsächlicher,…

SELinux Enforcing: Setup-Strategie ohne Produktivitätsverlust

SELinux (Security-Enhanced Linux) ist ein mächtiges Mandatory Access Control (MAC)-System, das Linux-Server gegen unautorisierte Zugriffe und Missbrauch absichert. Der Einsatz im Enforcing-Modus bietet maximalen Schutz, birgt jedoch das Risiko, dass Dienste blockiert werden, wenn Policies nicht korrekt konfiguriert sind. In diesem Tutorial zeigen wir praxisnahe Strategien, um SELinux von Anfang an korrekt einzurichten, ohne dass…

Health Checks: systemd Units, cron heartbeats und meta-monitoring

Regelmäßige Health Checks sind entscheidend, um die Stabilität und Verfügbarkeit von Linux-Servern sicherzustellen. Durch systematische Prüfungen von systemd Units, Cron-Heartbeats und Meta-Monitoring können Ausfälle frühzeitig erkannt und proaktive Maßnahmen eingeleitet werden. Systemd Unit Health Checks systemd bietet leistungsstarke Mechanismen, um den Status von Diensten kontinuierlich zu überwachen und automatisch zu reagieren. Statusabfrage und einfache Checks…

AppArmor Profile Management: Policies als Code versionieren

AppArmor ist ein Mandatory Access Control (MAC)-System für Linux, das Anwendungen durch profilbasierte Zugriffsbeschränkungen schützt. Im Vergleich zu SELinux ist AppArmor oft leichter verständlich, da es auf Pfad-basierten Regeln arbeitet. Die Verwaltung von AppArmor-Profilen als Code ermöglicht reproduzierbare, auditierbare und automatisierbare Sicherheitskonfigurationen, die in modernen DevOps- und Server-Setup-Pipelines direkt integriert werden können. Grundlagen von AppArmor…

Capacity Baselines: Sättigung messen statt nur “Auslastung”

In modernen IT-Umgebungen reicht es nicht aus, die reine Auslastung von Systemen zu beobachten. Entscheidend ist, die tatsächliche Sättigung von CPU, Speicher, Storage und Netzwerk zu messen. Nur so lassen sich realistische Capacity Baselines erstellen, die vor Engpässen schützen und fundierte Skalierungsentscheidungen ermöglichen. CPU-Sättigung messen Die CPU-Auslastung alleine sagt wenig über die tatsächliche Belastung aus.…

systemd Service Sandboxing: ProtectSystem, PrivateTmp, NoNewPrivileges

Systemd bietet weitreichende Möglichkeiten, Dienste innerhalb von Linux-Systemen zu isolieren und abzusichern. Sandboxing-Optionen wie ProtectSystem, PrivateTmp und NoNewPrivileges reduzieren die Angriffsfläche und verhindern, dass kompromittierte Services das System weiter gefährden. In diesem Tutorial lernen Sie, wie diese Optionen eingesetzt werden, um Serverdienste sicher zu betreiben. Grundlagen der systemd Service Sandboxing Systemd ermöglicht es, für jeden…

Time Sync Monitoring: NTP Drift als Root Cause vermeiden

Eine präzise Zeitbasis ist für Server und Netzwerke essentiell. Unerkannte Zeitdrifts können Dienste wie TLS, Log-Korrelationen, Datenbank-Replikation oder Cronjobs massiv beeinträchtigen. Dieses Tutorial zeigt, wie Sie Time Sync Monitoring einrichten, NTP-Drift erkennen und verhindern können, um Root-Cause-Probleme zu vermeiden. Grundlagen der Zeit-Synchronisation Linux-Systeme verwenden typischerweise NTP (Network Time Protocol) oder neuere Varianten wie chrony oder…