QUIC/HTTP3 im ISP: Auswirkungen auf DDoS-Mitigation und Visibility

QUIC/HTTP3 im ISP verändert zwei Dinge gleichzeitig: die Art, wie großer Web-Traffic transportiert wird, und die Art, wie Netzbetreiber DDoS-Mitigation sowie Visibility (Beobachtbarkeit) praktisch umsetzen können. QUIC ist ein Transportprotokoll über UDP, das viele klassische TCP-Mechanismen (Handshake, Retransmissions, Congestion Control) in einen verschlüsselten, applikationsnahen Stack verlagert. HTTP/3 nutzt QUIC als Transport und bringt damit Web-…

DNS-Outage im ISP: Cache, TTL und trügerische Propagation

Ein DNS-Outage im ISP ist selten ein „hartes“ Alles-oder-nichts-Ereignis. Viel häufiger ist er trügerisch: Einige Kunden sind betroffen, andere nicht; manche Websites gehen, manche nicht; in einem PoP wirkt alles stabil, im nächsten häufen sich Timeouts. Der Grund liegt fast immer in Cache, TTL und Propagation – drei Faktoren, die DNS im Normalbetrieb robust machen,…

CDN Cache Miss Storm: Impact aufs Backbone und Mitigation

Ein CDN Cache Miss Storm ist für ISPs eines der gefährlichsten Traffic-Ereignisse, weil er scheinbar „aus dem Nichts“ entsteht und das Backbone in kurzer Zeit an seine Grenzen bringen kann. Im Normalbetrieb entlasten CDNs das Netz, indem Inhalte nahe am Nutzer gecacht und lokal ausgeliefert werden. Wenn jedoch die Cache-Hit-Rate abrupt einbricht – etwa durch…

WAF False Positive am Edge: Runbook zur Traffic-Wiederherstellung

Ein WAF False Positive am Edge ist einer der frustrierendsten Incidents im Betrieb: Ihre Infrastruktur ist „gesund“, Links sind nicht gesättigt, CPU ist im Rahmen – und trotzdem melden Kunden Ausfälle, Logins schlagen fehl, APIs liefern 403/406, oder Checkout-Prozesse brechen ab. Der Grund ist nicht ein Angriff, sondern eine Schutzmaßnahme, die legitimen Traffic fälschlich als…

VoIP-/Gaming-Quality-Issues: MOS/Jitter/Loss für SLA auf OSI mappen

VoIP- und Gaming-Quality-Issues sind im ISP-Betrieb ein Sonderfall: Kunden spüren Störungen sofort, auch wenn klassische „Uptime“-Metriken grün sind. Ein Download läuft noch, ein Speedtest sieht gut aus – aber der Anruf klingt blechern, Wörter „brechen ab“, und im Spiel gibt es Rubberbanding oder „Shots registern nicht“. Für SLA und Trouble-Tickets entsteht dadurch ein Übersetzungsproblem: Kunden…

BNG/BRAS Session Issues: Warum Mass-Reauth passiert und Mitigation

BNG/BRAS Session Issues gehören zu den kritischsten Störungsbildern in Access-Netzen, weil sie nicht „nur“ einzelne Kunden betreffen, sondern sehr schnell in eine Mass-Reauth-Situation kippen können: Tausende bis Millionen Teilnehmer verlieren gleichzeitig ihre Session, starten eine Neuautorisierung (PPPoE/PPP oder IPoE/DHCP), und erzeugen dadurch eine Lastwelle, die BNG, RADIUS/AAA, DHCP, Aggregation und sogar das Backbone unter Druck…

PPPoE Session Flaps: Diagnose von Access bis Core

PPPoE Session Flaps sind im Provider-Betrieb eines der teuersten Störungsbilder, weil sie gleichzeitig technische und operative Konsequenzen haben: Kunden verlieren wiederholt die Verbindung, Anwendungen brechen, VoIP/Video friert ein, und im NOC entsteht schnell ein „Mass-Reconnect“-Effekt mit erhöhter Signalisierungslast auf BNG/BRAS, AAA/RADIUS und Aggregation. Der schwierigste Teil ist, dass PPPoE Flaps selten nur eine Ursache haben.…

CGNAT Exhaustion: Symptome, Telemetrie und schnelle Recovery

CGNAT Exhaustion ist eines der typischen „schleichenden“ Störungsbilder in Access- und Edge-Netzen: Zunächst melden einzelne Kunden „bestimmte Apps gehen nicht“, kurze Zeit später steigen Fehlerraten bei Web, Gaming und VoIP, und am Ende sieht es aus wie ein großflächiger Internet-Ausfall – obwohl Backbone und Peering gesund sind. Der Kern ist fast immer derselbe: Ein Carrier-Grade…

CGNAT-Logging: Attribution-Probleme beim Abuse Handling

CGNAT-Logging ist die Grundlage dafür, Abuse-Meldungen (Spam, DDoS, Portscans, Botnet-Kommunikation, Credential Stuffing) einem konkreten Teilnehmer zuzuordnen, wenn viele Kunden sich eine öffentliche IPv4-Adresse teilen. Genau hier entstehen in der Praxis die größten Attribution-Probleme beim Abuse Handling: Ein Abuse-Report nennt „Source IP + Zeit + Port“, aber im Provider-Backend fehlen einzelne Felder, Zeitstempel sind nicht synchron,…

SYN Flood am Edge: Detection über Flow-Daten und Telemetrie

Ein SYN Flood am Edge ist eine der häufigsten und gleichzeitig tückischsten DDoS-Formen im Provider- und Rechenzentrumsbetrieb. Der Angriff zielt nicht darauf ab, „viel Bandbreite“ zu verbrennen, sondern Zustände (State) in Firewalls, Load Balancern oder Servern zu erschöpfen: Angreifer senden massenhaft TCP-SYN-Pakete, provozieren halboffene Verbindungen und verursachen damit Ressourcenverbrauch in der Daten- oder Control Plane.…