OpenAI Codexsuperappcoding agentOpenAI Codex superapp pivot 2026Codex 3 million weekly users growth

OpenAI Codex erreicht 3 Mio. wöchentliche Nutzer und wird zur Superapp

19 Apr 20266 Min. LesezeitSarah Chen

// IN DIESEM ARTIKEL

01Die Zahlen 02Was wirklich neu ist 03Was im KI-Entwicklungsmarkt bereits eingepreist ist 04Die Gegenposition 05Wichtigste Erkenntnisse 06Häufig gestellte Fragen

Codex hat 3 Millionen wöchentliche Nutzer und wächst monatlich um 70 Prozent. Diese Wachstumsrate würde das Produkt, wenn sie auch nur zwei weitere Monate anhält, auf über 8 Millionen wöchentlich aktive Nutzer bis Mitte Sommer bringen – und das wäre die schnellste Skalierung, die OpenAI je bei einem entwicklernahen Produkt gezeigt hat. Das Update vom 17. April beschreibt Codex außerdem nicht mehr als Coding-Agent. Codex-Chef Thibault Sottiaux sagte, das Unternehmen „baut die Super-App offen im laufenden Betrieb", und die Feature-Liste untermauert genau dieses Konzept.

Die Zahlen

Die entscheidende Kennzahl ist die Wachstumskurve, nicht die absolute Nutzerzahl. 70 Prozent monatliches Wachstum ist die Art von Zahl, die man normalerweise in den ersten 90 Tagen eines Consumer-Launches sieht – nicht bei einem Produkt, das als CLI-Coding-Tool begann. Zum Vergleich innerhalb von OpenAIs eigenem Portfolio: Die Wachstumskurve von ChatGPT flachte lange vor dem Erreichen dieser Größenordnung auf niedrige einstellige Prozentwerte pro Monat ab. Codex verhält sich wie ein neues Produkt, nicht wie ein reifes – und genau das macht die Neupositionierung glaubwürdig.

Wie The Rundown AI berichtete, vereint das Release vom 17. April fünf Funktionen in einer einzigen Oberfläche: Background Computer Use für jede Mac-App, parallele Agents, einen Atlas-basierten In-App-Browser, inline Bildgenerierung über gpt-image-1.5 und ein Memory-Feature, das sich derzeit in der Preview-Phase befindet. Automations erweitern dieses Memory über Tage hinweg, sodass eine lang laufende Aufgabe später ohne erneutes Einrichten des Kontexts fortgesetzt werden kann.

Der Wettbewerbsrahmen ist relevant. Anthropic veröffentlichte Claude Opus 4.7 im selben Nachrichten-Zyklus – mit einem Sprung von 53,4 auf 64,3 Prozent auf SWE-bench Pro, zum identischen Preis wie 4.6 auf API-Ebene. Anthropics unveröffentlichtes Mythos Preview liegt bei 77,8 Prozent, ist aber auf exklusive Partner beschränkt. Das ergibt ein Delta von 13,5 Punkten auf demselben Benchmark zwischen dem, was die Öffentlichkeit kaufen kann, und dem, was Anthropic zurückhält. Anthropic verfolgt außerdem laut eigener Aussage einen Veröffentlichungsrhythmus von etwa zwei Monaten. Was wir nicht wissen: OpenAI hat den zugrunde liegenden Modell-Mix für Codex' neue Features nicht offengelegt, und auch nicht, ob Background Computer Use auf einer Variante von GPT-5.4 oder etwas Neuerem basiert. Der entscheidende Faktor: Wenn OpenAIs Preisgestaltung mit den aktuellen Plattform-Docs konsistent bleibt, sind die Inferenzkosten pro paralleler Agent-Session die ausschlaggebende Variable dafür, ob sich das Produkt über Heavy-User hinaus skalieren lässt.

Parallel dazu startete OpenAI GPT-Rosalind, sein erstes domänenspezifisches Reasoning-Modell, innerhalb von drei Tagen nach GPT-5.4-Cyber. In einem Blind-RNA-Test von Dyno Therapeutics übertraf Rosalind 95 Prozent der menschlichen Wissenschaftler bei Vorhersageaufgaben. Amgen, Moderna und das Allen Institute nutzen es bereits.

Was wirklich neu ist

Lässt man das Marketing beiseite, sind drei Dinge in diesem Zyklus wirklich anders.

Erstens ist Background Computer Use für jede Mac-App eine kategoriale Veränderung, keine inkrementelle. Bisherige Agent-Frameworks setzten API-Zugriff oder eine explizit freigegebene Automatisierungsoberfläche voraus. Codex bedient jetzt Apps ohne jede API – was bedeutet, dass die adressierbare Fläche für Automatisierung auf praktisch jede Desktop-Software ausgeweitet wurde, die ein Entwickler anfasst. Anthropic liefert Computer-Use-Primitive (dokumentiert in den Anthropic Docs) schon seit einer Weile, aber die Verpackung hier – Hintergrundausführung mit parallelen Agents und dauerhaftem Memory – ist das erste Mal, dass sich das wie eine Betriebsebene anfühlt und nicht wie eine Demo.

Zweitens ist der In-App-Browser mit Seiten-Annotation das Element, auf das Entwickler achten sollten. Wenn ein Entwickler ein DOM annotieren kann, um einen Agent zu steuern, reduziert sich das Prompt-Engineering-Problem auf ein UI-Problem. Man zeigt, der Agent handelt. Das ist ein grundlegend anderes Interaktionsmodell als strukturiertes Tool-Use über etwas wie MCP, und es wird die Art, wie Teams Agent-Integrationen bauen, in zwei Lager spalten: programmatisch für Backend-Workflows, annotationsbasiert für alles mit einer Benutzeroberfläche.

Drittens verändert Memory kombiniert mit Automations den Planungshorizont. Die meisten Agent-Produkte scheitern heute an der Session-Grenze. Wenn Codex eine Aufgabe tatsächlich „Tage später" mit erhaltenem Kontext und Nutzerpräferenzen aufnehmen kann, hört die Arbeitseinheit auf, ein Prompt zu sein, und wird zu einem Projekt. Das ist die Grundvoraussetzung dafür, dass ein Agent etwas wirtschaftlich Relevantes leistet. Ob es bei 3 Millionen wöchentlichen Nutzern zuverlässig den Zustand hält, ist die offene Frage. Memory befindet sich in der Preview-Phase, was OpenAIs übliches Signal dafür ist, dass die Retention-Qualität noch nicht auf GA-Niveau ist.

Prognose: Wenn Background Computer Use ohne offensichtliche Fehlerbilder skaliert, sollten wir innerhalb von 60 Tagen mindestens einen großen IDE-Anbieter sehen (wahrscheinlich Windsurf, das gerade 2.0 mit einem Agent Command Center und Devin-Integration ausgeliefert hat), der seine Agent-Story entsprechend anpasst.

Was im KI-Entwicklungsmarkt bereits eingepreist ist

Der Markt hat bereits erwartet, dass OpenAI auf eine Superapp zusteuert. Das war seit Monaten telegrafiert, und die Übernahme von Atlas machte es strukturell unvermeidlich. Was eingepreist ist: OpenAI bündelt ChatGPT, Browser und Agent-Oberflächen in einer App. Ebenfalls eingepreist: Anthropic und OpenAI, die sich die SWE-bench-Krone jedes Quartal gegenseitig zuschieben. Dass Opus 4.7 GPT-5.4 bei agentic Coding öffentlich übertrifft, überrascht niemanden.

Was meiner Einschätzung nach nicht eingepreist ist: die Geschwindigkeit, mit der domänenspezifische Modelle ankommen. GPT-Rosalind und GPT-5.4-Cyber wurden innerhalb von drei Tagen voneinander veröffentlicht. Das sind zwei Vertikal-Modelle in einer Woche von einem Unternehmen, das bis vor Kurzem darauf bestand, allgemeine Frontier-Modelle würden alles überflüssig machen. Ein Life-Sciences-Modell, das 95 Prozent der menschlichen Wissenschaftler bei einer spezifischen RNA-Vorhersageaufgabe übertrifft und während einer Testphase an Amgen, Moderna und das Allen Institute ausgeliefert wird, deutet darauf hin, dass sich das Kalkül geändert hat. Vertikale Modelle mit gesteuertem Enterprise-Zugang ist eine Anthropic-geprägte Strategie – nicht die OpenAI-Strategie von vor 18 Monaten.

Ebenfalls unterbewertet: die Mythos-Preview-Lücke. 77,8 Prozent gegenüber 64,3 Prozent auf SWE-bench Pro bedeutet, dass Anthropic der öffentlichen API grob eine Generation an Fähigkeiten vorenthält. Falls OpenAI eine ähnliche geschlossene Stufe hat, wissen wir nichts davon – und diese Asymmetrie ist für jeden relevant, der auf öffentlichen APIs aufbaut und dabei Parität mit Frontier-Fähigkeiten erwartet.

Die Gegenposition

Der Konsens lautet: Codex mit 3 Millionen wöchentlichen Nutzern und 70 Prozent Wachstum bestätigt die Superapp-These. Ich würde widersprechen. 70 Prozent monatliches Wachstum auf einer Basis von 3 Millionen ist für sich genommen eine beeindruckende Zahl – aber wir kennen den Nutzermix nicht. Die Quelle gibt nicht an, wie viele dieser wöchentlich Aktiven zahlend sind, wie viele sich im Trial befinden oder wie die Retention an Tag 30 aussieht. Das ist wichtig, weil Background Computer Use und parallele Agents inferenzintensive Features sind – und wenn das Wachstum durch einen kostenlosen oder stark subventionierten Tier getrieben wird, könnten die Unit Economics sehr anders aussehen als bei ChatGPT.

Frühe Reaktionen auf Opus 4.7 sind laut der Quelle ebenfalls „gespalten in Bezug auf die Fähigkeiten trotz der Benchmarks." Benchmarks und die gelebte Entwicklererfahrung driften auseinander. Dasselbe Risiko gilt für Codex: Eine Feature-Liste, die wie eine Superapp klingt, kann im täglichen Workflow immer noch wie eine Beta wirken. Der testbare Grenzwert: Wenn die Codex-Retention an Tag 30 unter 40 Prozent liegt (ein vernünftiger Mindestwert für Produktivitäts-Tools), ist die Superapp-Rahmung Marketing – keine Produktrealität. Wir werden es innerhalb von zwei Quartalen wissen.

Wichtigste Erkenntnisse

Codex mit 3 Millionen wöchentlichen Nutzern und 70 Prozent monatlichem Wachstum ist die schnellste Kurve, die OpenAI je bei einem entwicklernahen Produkt gezeigt hat – aber Nutzermix und Retention werden nicht offengelegt.
Background Computer Use für jede Mac-App, nicht nur API-fähige Software, ist die kategoriale Verschiebung. Sie weitet die Automatisierungsfläche auf praktisch alle Desktop-Software aus.
Opus 4.7 mit 64,3 Prozent auf SWE-bench Pro übertrifft GPT-5.4 und Gemini 3.1 Pro öffentlich – aber Anthropics gesperrtes Mythos Preview bei 77,8 Prozent zeigt eine Frontier-Lücke von 13,5 Punkten, auf die die Öffentlichkeit keinen Zugriff hat.
Domänenspezifische Modelle (GPT-Rosalind, GPT-5.4-Cyber, drei Tage auseinander) signalisieren, dass OpenAI die rein generalistische Haltung aufgibt. Rosalind übertraf 95 Prozent der menschlichen Wissenschaftler bei einer Blind-Aufgabe zu RNA-Vorhersagen von Dyno Therapeutics.
Beobachten Sie, ob IDE-Anbieter (Windsurf 2.0 hat bereits ein Agent Command Center mit Devin ausgeliefert) das Parallel-Agent-Muster von Codex innerhalb von 60 Tagen übernehmen. Wenn nicht, ist der Burggraben real.

Häufig gestellte Fragen

F: Was hat sich im Codex-Update vom 17. April 2026 geändert?

OpenAI hat Background Computer Use für jede Mac-App, parallele Agents, einen Atlas-basierten In-App-Browser, inline Bildgenerierung über gpt-image-1.5 und ein Memory-Feature in der Preview hinzugefügt. Automations erweitern das Memory über Sessions hinweg, sodass lang laufende Aufgaben Tage später fortgesetzt werden können. Codex-Chef Thibault Sottiaux beschrieb es als „die Super-App offen im laufenden Betrieb zu bauen."

F: Wie schneidet Claude Opus 4.7 im Vergleich zu OpenAIs Modellen bei Coding-Benchmarks ab?

Opus 4.7 erreicht 64,3 Prozent auf SWE-bench Pro, gegenüber 53,4 Prozent bei Opus 4.6, und übertrifft damit sowohl GPT-5.4 als auch Gemini 3.1 Pro bei agentic Coding. Anthropics unveröffentlichtes Mythos Preview, das nur exklusiven Partnern zugänglich ist, erreicht 77,8 Prozent auf demselben Benchmark. Opus 4.7 wird auf API-Ebene zum identischen Preis wie 4.6 angeboten.

F: Was ist GPT-Rosalind und wer hat Zugang dazu?

GPT-Rosalind ist OpenAIs erstes domänenspezifisches Reasoning-Modell, ausgerichtet auf Life Sciences, Arzneimittelforschung und biologische Forschung. Es kann Papers lesen, Labor-Datenbanken abfragen, Experimente entwerfen und Hypothesen generieren. In einem Blind-RNA-Vorhersagetest von Dyno Therapeutics übertraf es 95 Prozent der menschlichen Wissenschaftler. Amgen, Moderna und das Allen Institute nutzen es während der aktuellen Enterprise-Testphase.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Fünf führende KI-Anbieter scheitern am selben Angriff – und jetzt?

Eine Cisco-Studie zeigt, dass OpenAI, Anthropic, Google, Amazon und xAI alle an derselben Angriffskategorie scheitern. Die Konsequenzen für Plattformen und Beschaffung sind unmittelbar.

NVIDIA und TSMC bringen KI in die Chip-Fertigung

NVIDIA und TSMC bringen KI direkt in die Fabs. Der Zulieferer ist zum Co-Piloten geworden – mit Folgen, die noch niemand eingepreist hat.

Pichai gibt zu: Google liegt bei Coding-Agenten zurück

Sundar Pichai gibt zu, dass Google bei Agentic Coding hinter Anthropic zurückliegt. Der Grund ist weder Rechenleistung noch Talent – er ist älter und lässt sich nicht kaufen.