long-context inferenceSubquadratic AIcontext windowsubquadratic 12 million token context windowcheap long-context AI inference startup

Subquadratic startet mit 29 Mio. $ und 12-Millionen-Token-Kontextfenster

6 Mai 20268 Min. LesezeitJames O'Brien

// IN DIESEM ARTIKEL

01Was passiert ist 02Technische Architektur 03Wer unter Druck gerät 04Leitfaden für KI-Entwicklung 05Wichtigste Erkenntnisse 06Häufig gestellte Fragen

Stellen Sie sich eine Autobahn vor, die in den 1960er-Jahren gebaut wurde – drei Spuren je Richtung, perfekt konstruiert für den Verkehr ihrer Zeit. Und nun stellen Sie sich vor, dass an einem Dienstagmorgen um 8 Uhr jeder Pendler des Landes gleichzeitig darauf zuströmt. Das ist die Geschichte des Transformers der letzten Jahre: ein brillantes Stück Infrastruktur, das schlicht nicht schnell genug erweitert werden kann für die Masse an Fahrzeugen, die sich darauf drängt. Subquadratic, diese Woche aus dem Stealth-Modus aufgetaucht, glaubt, einen Weg gefunden zu haben, zehn weitere Spuren hinzuzufügen – ohne zusätzlichen Beton zu gießen.

Was passiert ist

Am 5. Mai 2026 verließ ein Startup namens Subquadratic den Stealth-Modus mit 29 Millionen Dollar Seed-Finanzierung und einem LLM namens SubQ, wie SiliconANGLE berichtete. Die Zahl, die man zweimal lesen muss: ein Kontextfenster von bis zu 12 Millionen Tokens – rund 9 Millionen Wörter oder ungefähr 120 Bücher, die in einen einzigen Prompt geladen werden.

Zum Vergleich: Der Branchenstandard liegt bei 128.000 Tokens für die meisten Produktionsmodelle, und selbst die führenden Cloud-Angebote wie Claude Sonnet 4.7 und Gemini 3.1 Pro kommen auf etwa 1 Million. Subquadratic behauptet einen 12-fachen Sprung an der Obergrenze – und das zu geringeren Kosten.

Das Unternehmen wird von CEO Justin Dangel und CTO Alexander Whedon geleitet. Ihre Architektur ist eine proprietäre Transformer-Variante, die auf Sparse Attention statt der dichten Attention aufbaut, welche das Feld seit 2017 prägt. Die Performance-Aussagen sind aggressiv: mehr als 50x schneller und 50x günstiger als führende Frontier-Modelle bei 1 Million Tokens, bei höherer Genauigkeit. Bei vollen 12 Millionen Tokens sagt Subquadratic, SubQ reduziere den Rechenaufwand um fast das 1.000-Fache im Vergleich zu Frontier-Modellen.

Die Benchmark-Zahl ist die, die diese Woche in Gruppenchats geteilt werden wird. Auf RULER 128K, dem Long-Context-Benchmark, erzielte SubQ 95 % Genauigkeit zu einem Preis von 8 $. Claude Opus erzielte 94 % für rund 2.600 $. Das entspricht einer etwa 300-fachen Kostenreduktion bei einem Prozentpunkt mehr Genauigkeit.

Drei Produkte werden zusammen mit dem Modell gestartet: die SubQ API für Entwickler und Enterprise-Teams, SubQ Code (ein CLI-Coding-Agent, der ganze Codebasen in einen einzigen Kontext lädt) und ein Suchprodukt, das zunächst kostenlos sein wird. Das Modell wird kurzfristig weder Open-Weight noch Open-Source sein, obwohl Dangel sagt, es werde für kundenspezifische Anwendungsfälle trainierbar sein. Zu den Investoren gehören Javier Villamizar (ehemals SoftBank Vision Fund), Justin Mateen (Tinder-Mitgründer, JAM Fund) sowie Frühinvestoren in Anthropic, OpenAI, Stripe und Brex.

Technische Architektur

Das gesamte Versprechen hängt an einem mathematischen Detail, das jeder kennt, der schon einmal um 2 Uhr nachts einen Long-Context-Inferenz-Job profiliert hat. Dense Attention vergleicht jeden Token mit jedem anderen Token. Verdoppelt man die Eingabe, verdoppelt sich der Aufwand nicht – er vervierfacht sich. Das ist die quadratische Autobahn, und deshalb wird aus einem 20-$-Prompt ein 80-$-Prompt, sobald man ein zweites PDF einfügt.

„Wenn Sie die Eingabegröße bei quadratischen Skalierungsgesetzen verdoppeln, benötigen Sie viermal so viel Rechenleistung; bei linearen Skalierungsgesetzen nur doppelt so viel", sagte Whedon gegenüber SiliconANGLE. Dieser eine Satz ist die gesamte kommerzielle These.

Sparse Attention ist in Dangels Worten „der Versuch zu sagen: Hey, lass uns herausfinden, wie wir nicht jeden Token mit jedem anderen Token vergleichen müssen." Der Teil, den das Unternehmen nicht offenlegt, ist genau der: welche Tokens verglichen werden und welche übersprungen werden. Das ist das Geheimnis – und der Grund, warum das Modell nicht Open-Weight ist. Sparse Attention ist keine neue Idee. Longformer, BigBird, Mamba-ähnliche State-Space-Hybride und ein Dutzend akademische Paper haben es alle versucht. Das Schwierige war immer, die Genauigkeit aufrechtzuerhalten, wenn man aufhört, alles mit allem zu vergleichen.

Wenn die RULER-128K-Zahlen unabhängigen Tests standhalten, ist das der entscheidende Teil der Geschichte. Ein Score von 95 % für 8 $ gegenüber 94 % für 2.600 $ ist nicht nur günstiger – es verändert, welche Produkte wirtschaftlich überhaupt möglich sind. Die Rechenkapazität hört auf, die bindende Einschränkung zu sein.

Ein weiterer technischer Aspekt, der erwähnenswert ist: Whedons Kritik an manueller Prompt-Kuration. „Ich pflegte manuell Prompts, Retrieval-Systeme, Evals und bedingte Logik zu kuratieren, um Workflows zu verketten", sagte er und nannte das „eine Verschwendung menschlicher Intelligenz und auch eine Einschränkung der Produktqualität." Übersetzt: Wenn Ihr Kontextfenster wirklich 12 Millionen Tokens umfasst und die Inferenz günstig ist, brauchen Sie kein RAG. Sie brauchen keine agentische Retrieval-Pipeline. Sie laden einfach alles hinein. Das ist eine sehr weitreichende Behauptung – und der Punkt, an dem alles zusammenbrechen könnte, wenn die Genauigkeit bei zunehmender Länge nachlässt.

Wer unter Druck gerät

Die offensichtlichsten Verlierer, wenn SubQ liefert, sind die RAG-Anbieter. Ein gesamtes Ökosystem aus Vektordatenbanken, Chunking-Strategien, Hybrid-Retrieval-Systemen und Re-Rankern existiert, weil Dense Attention im großen Maßstab zu teuer ist. Pinecone, Weaviate, der LangChain-Retrieval-Stack, ein halbes Dutzend Beratungsunternehmen, die sechsstellige Beträge für die Optimierung von Embedding-Pipelines berechnen: Sie alle verkaufen Lösungen für ein Problem, das kleiner wird, sobald jemand die Autobahn erweitert. Sie werden nicht in 90 Tagen verschwinden, aber die strategische Frage auf jedem Board-Deck ist gerade schwieriger geworden.

Die Frontier-Labs stehen vor einem anderen Druck. Anthropic und Google haben Premium-Preisstufen rund um Long-Context-Fähigkeiten aufgebaut. Wenn ein Seed-Stage-Startup glaubwürdig 300x günstigere Inferenz bei 128K beanspruchen kann, wird die Preissetzungsmacht bei Million-Token-Tarifen von unten unter Druck gesetzt. Anthropic hat dabei meines Erachtens am meisten zu verlieren, angesichts dessen, wie sehr Claudes Enterprise-Pitch auf der Analyse langer Dokumente basiert.

Coding-Tools sind die andere gefährdete Kategorie. SubQ Codes Versprechen ist es, ganze Codebasen in einen einzigen Kontext zu laden. Cursor, Cognition's Devin, der GitHub Copilot Workspace – sie alle haben achtzehn Monate damit verbracht, aufwendige agentische Workflows zu entwickeln, um Kontextlimits zu kompensieren. Wenn SubQ Code bei den implizierten Latenzen funktioniert, wird die Agent-Orchestrierungsschicht zur Krücke statt zum Feature.

Für Bereiche, die für den RiverCore-Leser relevant sind: Fintech-Compliance-Teams, die Dokumentenprüfungen in großem Maßstab durchführen, iGaming-Plattformen, die Transaktionsprotokolle zur Betrugserkennung verarbeiten, Ad-Tech-Unternehmen, die Kampagnendaten analysieren – sie alle schreiben seit Jahren fragilen Chunking-Code. In den nächsten 90 Tagen sollten diese Teams die SubQ API gegen ihre härtesten internen Benchmarks testen. Nicht die Marketing-Benchmarks. Die, die letztes Quartal versagt haben.

Leitfaden für KI-Entwicklung

Drei konkrete Schritte für Engineering Leads diese Woche.

Erstens: Tragen Sie sich in die SubQ-API-Warteliste ein und führen Sie eigene Evals durch. Anbieter-Benchmarks sind Anbieter-Benchmarks. RULER 128K ist ein respektabler Test, aber kein Abbild Ihres Produktions-Traffics. Ziehen Sie die schwierigsten Anfragen des letzten Monats heran – die, bei denen Ihre aktuelle RAG-Pipeline unbrauchbare Ergebnisse geliefert hat – und schauen Sie, was passiert, wenn Sie aufhören zu kuratieren und anfangen, alles hineinzuwerfen. Planen Sie zwei Ingenieur-Wochen für eine ehrliche Evaluation ein.

Zweitens: Überprüfen Sie Ihren Retrieval-Stack mit einem möglichen Ausstieg im Hinterkopf. Nicht weil Sie ihn morgen herausreißen. Sondern weil die architektonische Annahme, dass Retrieval zwingend notwendig ist, nun anfechtbar ist. Kartieren Sie, welche Teile Ihrer Pipeline aus Kostengründen existieren, welche aus Latenzgründen und welche aus echten Information-Architecture-Anforderungen (Zitierungen, Zugriffskontrolle, Aktualität). Die ersten beiden Kategorien sind nun verhandelbar.

Drittens: Behalten Sie die Lock-in-Frage im Auge. SubQ ist nicht Open-Weight und plant es auch nicht zu werden. Wenn Sie ein Produkt rund um einen 12-Millionen-Token-Kontext aufbauen, setzen Sie auf die Roadmap, Preisgestaltung und Verfügbarkeit eines einzigen Anbieters. Das ist ein vertrauter Kompromiss für jeden, der OpenAIs Plattform nutzt, aber es lohnt sich, beim Architecture Review ehrlich darüber zu sein. Der Hinweis auf Trainierbarkeit für kundenspezifische Anwendungsfälle deutet darauf hin, dass Subquadratic Enterprise-Procurement versteht – aber das zu verstehen und es zu einem zugänglichen Preis anzubieten sind zwei verschiedene Dinge.

Für die Skeptiker: Gehen Sie davon aus, dass die Benchmarks leicht geschönt sind, dass die Genauigkeit am langen Ende des 12-Millionen-Token-Fensters nachlässt, und fragen Sie, ob 1 Million Tokens zu 50x günstigeren Kosten dennoch ein geschäftsveränderndes Ergebnis wäre. Meine Einschätzung: Ja, eindeutig.

Wichtigste Erkenntnisse

Subquadratic startete am 5. Mai 2026 mit 29 Millionen Dollar Seed-Finanzierung und einem LLM (SubQ), der bis zu 12 Millionen Tokens unterstützt – gegenüber einem Branchenstandard von 128K und einer Frontier-Obergrenze von rund 1 Million.
Die Architektur ist ein proprietärer Transformer mit Sparse Attention, der von quadratischer zu linearer Skalierung übergeht. Verdoppelt man die Eingabe, verdoppelt sich der Rechenaufwand, anstatt sich zu vervierfachen.
Haupt-Benchmark: 95 % auf RULER 128K für 8 $, gegenüber Claude Opus mit 94 % für rund 2.600 $. Rund 300-fache Kostenreduktion, wenn sie sich bei unabhängigen Tests bestätigt.
RAG-Anbieter, Agent-Orchestrierungs-Tooling und Long-Context-Preisstufen der Frontier-Labs sind am stärksten gefährdet, wenn SubQ die versprochene Qualität liefert.
Engineering Leads sollten diesen Monat eigene Evals durchführen, prüfen, welche Retrieval-Komponenten rein aus Kostengründen existieren, und Single-Vendor-Lock-in gegen den wirtschaftlichen Vorteil abwägen.

Zurück zur Autobahn. Alle paar Jahrzehnte erweitert jemand die Straße, und alle stellen fest, dass der Verkehr nie wirklich das Problem war – sondern die Straße selbst. Dangel formulierte es noch ambitionierter: „Die fundamentalen Skalierungsgesetze, die durch die Transformer-Architektur und Dense Attention auferlegt wurden, wurden durchbrochen." Das ist eine große Behauptung für ein Unternehmen, das erst fünf Stunden öffentlich existiert. Aber wenn auch nur die Hälfte davon den Kontakt mit Produktions-Workloads übersteht, wurden die Spuren gerade deutlich breiter – und viele sorgfältig entwickelte Workarounds sehen plötzlich aus wie Pylonen auf einer leeren Straße.

Häufig gestellte Fragen

F: Was unterscheidet Subquadratics SubQ-Modell von Claude oder Gemini?

SubQ verwendet eine proprietäre Transformer-Architektur mit Sparse Attention statt Dense Attention, die mit der Eingabegröße linear statt quadratisch skaliert. Das ermöglicht ein Kontextfenster von bis zu 12 Millionen Tokens – gegenüber rund 1 Million für Claude Sonnet 4.7 und Gemini 3.1 Pro – bei angeblich drastisch reduzierten Kosten und Latenzen bei langen Kontexten.

F: Wie glaubwürdig ist die Behauptung einer 300-fachen Kostenreduktion gegenüber Claude Opus?

Sie basiert auf Subquadratics eigenen RULER-128K-Benchmark-Zahlen: 95 % Genauigkeit für 8 $ gegenüber 94 % für rund 2.600 $ bei Claude Opus. RULER ist ein anerkannter Long-Context-Benchmark, aber bis unabhängige Dritte das Ergebnis auf verschiedenen Workloads reproduzieren, sollte man die Zahl als starkes Signal und nicht als gesicherte Tatsache betrachten.

F: Macht das RAG und Vektordatenbanken obsolet?

Nicht sofort, aber es schwächt das zentrale wirtschaftliche Argument. Retrieval-Augmented Generation existiert größtenteils, weil Dense Attention im großen Maßstab zu teuer ist. Wenn Long-Context-Inferenz 50x bis 300x günstiger wird, können viele Anwendungsfälle, die RAG aus Kostengründen benötigten, einfach vollständige Dokumente oder Codebasen laden. Anwendungsfälle, die RAG für Zitierungen, Zugriffskontrolle oder Aktualität benötigen, sind weniger betroffen.

James O'Brien

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Microsoft plant Verdoppelung der KI-Kapazität bis 2028

Microsoft hat in einem Quartal ein ganzes Gigawatt an Kapazität hinzugefügt und plant, seinen KI-Fußabdruck bis 2028 zu verdoppeln. Die Capex-Zahlen erzählen die eigentliche Geschichte.

Moreh erreicht A100-Werte auf Tenstorrent – ohne HBM-Aufpreis

Morehʼs TT-Deploy-Demo verlagert LLM-Prefill auf Tenstorrent Wormhole und behält Decode auf GPUs – mit DGX-A100-Leistung ohne HBM-Kosten.

Die Claude Code-Geschichte, die wir noch nicht verifizieren können

Die einzige verfügbare Quelle zu Claude Code ist eine Browser-Verifizierungsseite – null verwertbare Fakten. Was diese Abwesenheit für KI-Käufer bedeutet.