$20 Zero-Days: WordPress-Plugins als KI-Jagdrevier
Wer schon einmal um 3 Uhr nachts Incident Response geleistet hat, weiß: Die schlimmsten Anrufe beginnen mit „Ein Plugin-Update hat etwas kaputt gemacht, und jetzt gibt es ausgehenden Datenverkehr, den wir nicht erklären können." Dieser Anruf wird bald deutlich billiger auslösbar. Eine Research-Pipeline, die in drei Tagen gebaut wurde, fand in 72 Stunden Scanning mehr als 300 kritische Zero-Day-Schwachstellen im WordPress-Plugin-Ökosystem – zu durchschnittlichen Kosten von etwa 20 $ pro Fund.
Der Betrag ist klein genug, um auf einem Kreditkartenbeleg zu stehen. Genau darum geht es.
Die Zahlen
Wie Help Net Security berichtete, stellten Forscher von TrendAI und CHT Security die Arbeit auf der Ekoparty Miami vor. Das System kombiniert KI-gestützte statische Analyse mit automatisierter Docker-Bereitstellung und dynamischer Verifikation über Chrome DevTools MCP. Das AgentForge-Orchestrations-Dashboard protokollierte im Verlauf der Kampagne rund 222 Millionen verbrauchte Tokens über 95 Aufgaben. Steven Yu, Threat Research Engineer bei TrendAI, übersetzte diesen Token-Verbrauch in den Durchschnittswert von 20 $ pro Schwachstelle.
Um diese Zahl in Budgetzahlen zu fassen: Ein mittelgroßer iGaming-Betreiber, der vierteljährlich ein Red-Team-Engagement durchführt, gibt möglicherweise sechsstellige Beträge aus, um eine Handvoll kritischer Findings gegen einen gehärteten Stack zu erhalten. Dasselbe Budget, durch eine solche Pipeline gegen ein weicheres Ökosystem geleitet, würde Hundreds von Findings liefern. In einem 10-köpfigen Plattform-Team ist 20 $ ein Rundungsfehler in der Cloud-Rechnung eines einzelnen Sprints. Es ist weniger, als ein verwaltetes Datenbank-Backup an einem Wochenende kostet.
Yu schränkte die Aussage sorgfältig ein. „Das bedeutet nicht, dass man einfach eine Schwachstelle in einer beliebigen WordPress-Seite für nur 20 $ finden kann", sagte er. „Es hängt stark von der Sicherheit des Codebases ab. Das WordPress-Ökosystem ist extrem umfangreich und komplex, was zu sehr unterschiedlicher Codequalität führt. In anderen Frameworks oder Ökosystemen werden wir möglicherweise nicht dieselben Ergebnisse zu dieser Kostenschwelle sehen."
Die Einschränkung leistet echte Arbeit. WordPress hat mehr als eine Million Plugins in seinem Ökosystem, viele davon von Solo-Freiwilligen ohne Sicherheitsbudget gepflegt. Das ist das demografische Profil eines weichen Ziels. Ein gehärtetes Fintech-Monorepo mit verpflichtenden Reviews, SAST-Gates und Fuzz-Harnesses wird Bugs nicht mit derselben Rate preisgeben. Aber „WordPress ist besonders" ist ein schwacher Trost, wenn WordPress einen erheblichen Teil des öffentlichen Internets betreibt – einschließlich Marketing-Properties von Unternehmen, die anderswo Sicherheit ernst nehmen.
Die aufgedeckten Schwachstellenklassen lesen sich wie eine Tour durch die OWASP Top Ten: Pre-Authentication Remote Code Execution, SQL-Injection versteckt hinter PHPCS-Annotationen, die anfällige Abfragen als sicher markieren, Privilege Escalation über das WordPress-Hook-System, Server-Side Request Forgery und eine Downgrade-Angriffskette. Eine Pre-Auth RCE landete in einem Plugin mit mehr als 1.000 GitHub-Stars. Das ist kein aufgegebenes Hobbyprojekt. Das ist etwas, das die Beschaffungsabteilung möglicherweise durchwinkt.
Was wirklich neu ist
KI-Schwachstellenforschung hat in den letzten 18 Monaten einen schlechten Ruf erworben. Maintainer wurden mit KI-generiertem Rauschen überschüttet, und mehrere große Open-Source-Projekte haben KI-Einreichungen rundheraus abgelehnt. Produktionsvorfälle, die ich im Zusammenhang mit „KI-assistierter Offenlegung" gesehen habe, beinhalten meist einen Maintainer, der eine Woche lang einer halluzinierten CVE hinterherjagt, bevor er merkt, dass der Bericht Code beschreibt, der im Repo gar nicht existiert.
Die TrendAI-Pipeline unterscheidet sich in zwei Punkten, die operativ relevant sind.
Erstens: dynamische Verifikation. Jeder Fund musste in einer Docker-Umgebung hochgefahren werden und sich über Chrome DevTools MCP beweisen, bevor er die Disclosure-Queue erreichte. Das System eliminierte auf diese Weise mehr als 80 % der False Positives. Das ist der Unterschied zwischen einem Tool, das Tickets produziert, und einem Tool, das Exploits produziert. Statische Analyse mit einem LLM obendrauf ist ein Pattern-Matcher. Statisch plus automatisierte Umgebungsbereitstellung plus dynamische Bestätigung ist ein funktionierender Proof-of-Concept-Generator.
Zweitens – und das ist der Teil, der Verteidiger beunruhigen sollte – die Downgrade-Kette. Die KI fand eine Schwachstelle, die es ermöglichte, ein Ziel-Plugin auf eine frühere Version zurückzurollen, erkannte, dass die frühere Version eigene ausnutzbare Schwachstellen hatte, und kettete die beiden ohne manuelle Eingaben oder vorab eintrainierte Muster zusammen. Yu bestätigte, dass bei der Zusammenstellung dieser Kette keine menschliche Führung vorhanden war. Dieselbe Schwachstellenklasse wurde anschließend durch Pattern-Hunting in OpenCart- und Joomla-Codebases gefunden.
Das ist autonome Bug-Klassen-Generalisierung. Nicht „das Modell erkannte ein Muster, auf das es trainiert wurde." Das Modell erfand eine Kette und übertrug die Abstraktion dann auf verschiedene Ökosysteme. Teams, mit denen ich gearbeitet habe, haben jahrelang Bedrohungsmodelle auf der Annahme aufgebaut, dass Exploit-Ketten menschliche Kreativität zum Zusammensetzen erfordern. Diese Annahme läuft jetzt auf einem Countdown.
Meine Einschätzung: Die 20-$-Zahl wird alle Schlagzeilen bekommen, aber die Downgrade-Kette ist die eigentliche Nachricht. Der Preis sinkt mit jeder Modellgeneration. Autonomer Kettenbau ist eine Fähigkeitsschwelle – und einmal überschritten, kehrt man nicht zurück.
Was Security-Teams bereits eingepreist haben
Einiges davon haben reife Security-Teams bereits vorausgesetzt. Wer in den letzten 12 Monaten ein Bug-Bounty-Programm betrieben hat, hat die KI-Schrotflintenwelle erlebt und Filter dafür gebaut. Wer beobachtet hat, wie der CISA KEV-Katalog wächst, weiß, dass die Lücke zwischen Offenlegung und aktiver Ausnutzung seit Jahren schrumpft. Die Idee, dass motivierte Angreifer Discovery-Pipelines im großen Maßstab betreiben können, überrascht niemanden, der seit 2024 einen Threat Report gelesen hat.
Was nicht eingepreist ist: der Triage-Kollaps. Yu war direkt. „Organisationen wie ZDI und NIST kämpfen derzeit mit massiven Rückständen aufgrund der Explosion KI-gestützter Schwachstellenberichte. Wenn KI die Entdeckung von einigen wenigen Findings pro Tag auf Hunderte pro Sekunde skalieren kann, wird das traditionelle menschenzentrierte Triage-Modell unhaltbar."
Die manuelle Verifikation jeder WordPress-Plugin-Schwachstelle dauerte im TrendAI-Team zwischen 30 und 60 Minuten. Die menschliche Überprüfung wurde als primärer Engpass in der eigenen Pipeline beschrieben. Wenn die Leute, die die Findings produzieren, mit ihrer eigenen Ausgabe nicht mithalten können, haben die nachgelagerten Anbieter und CNAs keine Chance. Yu erwartet, dass mehrere Anbieter zu Invite-Only- oder Mitgliedschaftsbasierten Disclosure-Modellen übergehen und Accounts sperren werden, die KI-generierten Lärm einreichen.
Die unbequeme Lesart: Bug Bounty als offener Einreichungsmarkt endet wahrscheinlich. Was ihn ersetzt, ähnelt eher einer Gilde – mit reputationsgesteuertem Zugang und KI-gegen-KI-Triage auf der Empfängerseite. Yus eigene Empfehlung lautet „KI-Magie mit KI-Magie bekämpfen". Engineering-Leader, die Beschaffungsanfragen für KI-gestützte Sicherheitstools bisher abgeblockt haben, werden dieses Argument in den nächsten zwei Budgetzyklen verlieren.
Die Gegenperspektive
Die pessimistische Lesart schreibt sich von selbst: 20-$-Zero-Days, autonome Exploit-Ketten, Disclosure-Infrastruktur im Kollaps. Aber es gibt Gründe, innezuhalten, bevor man das Ende verteidigungsfähiger Web-Infrastruktur ausruft.
Die Pipeline funktioniert bei WordPress-Plugins vor allem deshalb, weil WordPress-Plugins einzigartig schlecht sind. Ein Millionen-Plugin-Ökosystem, das größtenteils von Freiwilligen gepflegt wird, ist nicht repräsentativ dafür, wie ernsthafte Software gebaut wird. Derselbe Agent, der auf eine Rust-Codebase mit eigenschaftsbasierten Tests und einer sorgfältigen Review-Kultur angesetzt wird, wird viele Tokens verbrauchen, um sehr wenig zu finden.
Der Agent hat auch harte Grenzen. Exploits, die einen funktionierenden Zahlungs-API-Key, ein gültiges Benutzerkonto oder einen SMS-Verifizierungscode erfordern, brechen die Pipeline, weil die Lücke umgebungsbedingt und nicht analytisch ist. Der Großteil der Enterprise-Angriffsfläche sitzt genau hinter solchen Gates. Das Modell kann keinen unternehmensweiten SSO-Flow oder eine Twilio-verifizierte Telefonnummer vortäuschen.
Und es gibt eine Verteidigerversion derselben Pipeline. Wenn TrendAI das in drei Tagen gebaut hat, können interne AppSec-Teams etwas Ähnliches gegen ihren eigenen Code bauen, bevor Angreifer es tun. Die Fähigkeit ist symmetrisch. Die erste Welle wird Angreifern zugutekommen, weil sie weniger Ethics Review Boards haben, aber das Tooling diffundiert in beide Richtungen. Teams, die Pipelines in den nächsten sechs Monaten in CI integrieren, werden ihre Rückstände schneller abbauen, als Angreifer neue Bugs finden können.
Die wichtigsten Erkenntnisse
- Hören Sie auf, WordPress-Plugins als niedrigpriore Angriffsfläche zu behandeln. Wenn Ihre Marketing-Website auf WP läuft, ist sie jetzt ein praktikabler Initial-Access-Vektor für jeden Angreifer mit einer Kreditkarte. Inventarisieren Sie Plugins, pinnen Sie Versionen, und stellen Sie den Marketing-Stack hinter dieselben Egress-Kontrollen wie die Produktion.
- Die Downgrade-Kette ist das eigentliche Signal. Autonomer Exploit-Ketten-Aufbau über Versionen und Ökosysteme hinweg (WordPress, OpenCart, Joomla) bedeutet, dass Single-CVE-Patching kein ausreichendes Bedrohungsmodell mehr ist. Kartieren Sie Versions-Rollback-Pfade in Ihrem Dependency-Graph.
- Rechnen Sie damit, dass Disclosure-Programme härter werden. Invite-Only- und reputationsgesteuerte Einreichungsmodelle kommen innerhalb von Monaten. Wenn Ihr Team auf externe Bounty-Einreichungen angewiesen ist, lassen Sie Forscher jetzt akkreditieren – bevor die Tür sich schließt.
- Budgetieren Sie für KI-gestützte Triage auf der Verteidigerseite. Yus „KI-Magie mit KI-Magie bekämpfen" ist kein Slogan, sondern eine Beschaffungsdirektive. Manuelle Triage von 30 bis 60 Minuten pro Finding skaliert nicht gegenüber einer Entdeckung von Hunderten pro Sekunde.
- Auditieren Sie heute Ihre PHPCS-Suppressions. SQL-Injection, die hinter Annotationen versteckt ist, die anfällige Abfragen als sicher markieren, ist ein Muster, das die KI explizit anvisiert hat. Wenn Ihre Codebase ähnliche Suppress-and-Forget-Kommentare verwendet, sind das jetzt Wegweiser für Angreifer.
Häufig gestellte Fragen
F: Wie erreichten die Forscher Kosten von 20 $ pro Zero-Day bei WordPress-Plugins?
Die Pipeline von TrendAI und CHT Security kombinierte KI-gestützte statische Analyse mit automatisierter Docker-Bereitstellung und dynamischer Verifikation über Chrome DevTools MCP. Über 95 Aufgaben mit rund 222 Millionen verbrauchten Tokens fand das System in 72 Stunden mehr als 300 kritische Zero-Days zu durchschnittlich etwa 20 $ pro Fund. Die Zahl spiegelt das einzigartig schwache WordPress-Ökosystem wider und lässt sich nicht ohne Weiteres auf gehärtete Enterprise-Codebases übertragen.
F: Bedeutet das, dass jede Webanwendung jetzt durch günstiges KI-entdecktes Zero-Day-Hacking gefährdet ist?
Nicht gleichermaßen. Steven Yu von TrendAI warnte ausdrücklich, dass die 20-$-Zahl stark von der Codequalität abhängt, und WordPress-Plugins stellen einen Ausreißer dar – mit über einer Million Plugins, die größtenteils von Solo-Freiwilligen gepflegt werden. Die Pipeline scheitert auch bei Exploits, die gültige Zahlungsschlüssel, Benutzerkonten oder SMS-Verifizierung erfordern, was einen Großteil der Enterprise-Angriffsfläche absichert.
F: Was sollten Security-Teams jetzt als Reaktion auf diese Forschung tun?
Inventarisieren Sie WordPress- und CMS-Plugin-Exposition auf allen Properties einschließlich Marketing-Websites, auditieren Sie PHPCS-Suppressions-Annotationen, die Injection-Schwachstellen verbergen könnten, modellieren Sie Versions-Rollback-Angriffspfade in Dependency-Graphs, und beginnen Sie mit der Beschaffung von KI-gestützten Triage-Tools. Rechnen Sie damit, dass Bug-Bounty-Programme zu Invite-Only-Modellen wechseln – akkreditieren Sie Ihre Forscher, bevor der Zugang eingeschränkt wird.
Claude Mythos Findet 10.000 Zero-Days – Patch-Pipeline Kollabiert
Anthropics Claude Mythos Preview fand über 10.000 Zero-Days in einem Monat. Nur 97 wurden gepatcht. Das 90-Tage-Disclosure-Fenster hat aufgehört, Sinn zu ergeben.
GitHub-Datenpanne durch Nx Console Extension legt 3.800 Repos offen
TeamPCP exfiltrierte 3.800 interne GitHub-Repos über eine manipulierte Nx Console Extension, die 18 Minuten aktiv war. Der eigentliche Kern: Wie Platform-Teams Developer-Tooling-Risiken einpreisen.
Drupal CVE-2026-9082 Zwingt PostgreSQL-Betreiber zum Notfall-Patching
Eine kritische Schwachstelle in Drupal Core, CVE-2026-9082, ermöglicht anonymen Angreifern SQL-Injection auf PostgreSQL-basierten Sites, die bis zur Remote-Code-Ausführung eskalieren kann.




