Blackwell inference dealsQumulusAIGPU utilizationQumulusAI Blackwell three-year inference contractsNvidia Blackwell AI infrastructure spending

QumulusAI unterzeichnet Blackwell-Inference-Verträge im Wert von 124 Mio. USD

16 Jun 20267 Min. LesezeitSarah Chen

// IN DIESEM ARTIKEL

01Die Zahlen 02Was wirklich neu ist 03Was für die KI-Entwicklung bereits eingepreist ist 04Die Gegenmeinung 05Wichtigste Erkenntnisse 06Häufig gestellte Fragen

QumulusAI hat 124 Millionen USD über drei Jahre abgeschlossen, die an Nvidia Blackwell geknüpft sind – und das Interessante daran ist nicht die Summe. Es ist die Tatsache, dass die Verträge auf Inference und nicht auf Training ausgerichtet sind. Dieses einzelne Merkmal verändert die Lesart des Deals grundlegend, denn Inference-Ökonomie funktioniert genau umgekehrt wie Training-Ökonomie: Training-Workloads enden, Produktions-Workloads nicht.

Die Schlagzeilenzahl entspricht im Durchschnitt rund 41 Millionen USD pro Jahr an gebundenen Ausgaben über das gesamte Portfolio, verankert durch einen Deal mit dem KI-Cloud-Anbieter Hyperbolic. Für einen unabhängigen GPU-Anbieter ist das eine solide Umsatzbasis – doch der strategische Gehalt liegt in dem, was beide CEOs auf die Frage nach dem Wesentlichen hervorhoben: nicht Kapazität, sondern wie gut die Systeme ausgelastet bleiben.

Die Zahlen

Wie Data Center Knowledge berichtete, unterzeichnete QumulusAI Verträge über mehr als 124 Millionen USD mit dreijähriger Laufzeit auf Basis von Nvidia-Blackwell-Deployments, wobei Hyperbolic als eine der Vertragsparteien genannt wird. Die Verträge sind explizit auf Inference-Workloads ausgerichtet, mit optionalem Spielraum für kleinere Training- oder Fine-Tuning-Läufe auf derselben Hardware.

Stellt man das den vergangenen 18 Monaten des Marktes gegenüber, ergibt sich ein klares Bild. Seit 2024 haben KI-Infrastrukturanbieter primär auf einer einzigen Achse konkurriert: wie viele GPUs sie bereitstellen konnten. Die implizite Grundannahme war, dass die Nachfrage nach Training-Kapazität praktisch unbegrenzt sei und jedes Cluster, das man in Betrieb nehmen konnte, zum Marktpreis abgenommen würde. QumulusAI-CEO Mike Maniscalco beschreibt das Vorgehen direkt: „Die Priorität lag darin, die größten und flexibelsten Cluster überhaupt zu sichern." Das ist die These von 2024 bis 2025, klar auf den Punkt gebracht.

Die These für 2026 ist, in den Worten desselben CEOs, eine andere: „Heute konzentrieren sich mehr Kunden darauf, Modelle in der Produktion in großem Maßstab zu betreiben, möchten aber auch die Flexibilität behalten, kleineres Training oder Fine-Tuning auf derselben Infrastruktur durchzuführen." Die Verschiebung im Substantiv ist das Entscheidende. Training ist ein Projekt. Produktions-Inference ist ein Betriebssystem. Das eine endet, das andere akkumuliert.

Hyperbolic-CEO Jasper Zhang formuliert es noch direkter: „Auslastung und Kosteneffizienz stehen ganz oben, denn Leerlaufkapazität ist das teuerste Problem in diesem Markt." Nimmt man das als Preissignal ernst, dann ist die entscheidende Einschränkung für Blackwell-Ökonomie im Jahr 2026 nicht die Zuteilung, sondern der Duty Cycle. Hyperbolic nannte auch Verfügbarkeitszeit und Versorgungszuverlässigkeit als Bedenken – was darauf hindeutet, dass das Angebotsbild noch eng genug ist, um relevant zu sein, aber nicht mehr so eng, dass reine Kapazität den Vertrag gewinnt.

Was die Quelle nicht offenlegt – und was erheblich relevant ist –, ist der implizite Auslastungsboden innerhalb der 124 Millionen USD. Wir kennen weder die vertraglich vereinbarte GPU-Anzahl, noch die angenommene durchschnittliche Auslastung, noch den GPU-Stunden-Preis, auf den sich diese Deals geeinigt haben. Die Grenze ist dennoch aufschlussreich: Bei drei Jahren und rund 41 Mio. USD pro Jahr – und unter der Annahme von Blackwell-GB200-Ökonomie im Bereich von 2 bis 3 USD pro GPU-Stunde – deutet das auf ein Cluster-Fußabdruck im niedrigen Tausenderbereich von GPUs hin, die nahezu durchgehend laufen müssen, um die Ausgaben zu rechtfertigen. Fällt die Auslastung deutlich darunter, trägt der Käufer die Differenz.

Was wirklich neu ist

Drei Dinge haben sich tatsächlich verändert – und sie sind es wert, vom Rauschen getrennt zu werden.

Erstens hat die Optimierungsfunktion des Käufers mehr Variablen. Maniscalco listet sie auf: „Kunden optimieren nach vielen Faktoren, darunter Time-to-Market, Budget, SLA und Workload-Anforderungen." Vergleicht man das mit 2024, als die Optimierungsfunktion für die meisten KI-Käufer im Wesentlichen „jede H100, die ihr mir geben könnt, sofort" lautete, wird deutlich: Die Tatsache, dass SLA und Workload-Form jetzt neben roher Verfügbarkeit stehen, zeigt, dass die Versorgungspanik am oberen Ende nachlässt – auch wenn bestimmte SKUs weiterhin knapp bleiben.

Zweitens sind Storage und Netzwerk nicht mehr einheitlich. Die Quelle beschreibt, wie QumulusAI von Nvidia-Referenzarchitekturen ausgeht, diese aber an Kundenanforderungen anpasst: lokale NVMe, angebundener Hochleistungsspeicher, externe Systeme oder gestufte Architekturen, mit Netzwerkdesigns, die je nach Latenz, Workload-Charakteristik, Deployment-Zeitpunkt und Budget variieren. Für Training konnte man mit einem recht standardmäßigen Fat-Tree plus parallelem Dateisystem auskommen. Für gemischte Inference und Fine-Tuning ist die richtige Antwort für einen latenzarmen Chat-Endpunkt eine andere als für eine Batch-Embedding-Pipeline – und beide können auf derselben physischen Flotte landen. Das ist ein schwierigeres Engineering-Problem als „mehr GB200s einzurackern".

Drittens ist das Kosten-pro-Output-Token-Framing jetzt explizit auf der Infrastrukturebene verankert. Zhang: „Speziell für Inference zählen Latenz und Kosten pro Ausgabe-Einheit, da Teams Open-Source-Workloads in die Produktion überführen." Liest man das genau, ist die relevante Einheit nicht mehr GPU-Stunden, sondern servierte Token pro Dollar amortisierter Capex. Das ist näher daran, wie ein CDN oder eine Datenbank-Flotte betrieben wird, als wie ein HPC-Cluster betrieben wird. Engineering-Teams, die Inference-Runtimes verglichen haben, wissen, wie viel Spielraum zwischen einem naiven Deployment und einem gut abgestimmten auf derselben Hardware besteht: es sind nicht 10 Prozent, es sind Vielfache. Für alle, die gegen die OpenAI API oder Claude entwickeln, wird diese Lücke derzeit vom Modellanbieter absorbiert. Für Teams, die Open-Source-Modelle auf gemieteten Blackwell-Instanzen selbst hosten, schlägt sie direkt auf ihre Gewinn-und-Verlust-Rechnung durch.

Wenn diese These stimmt, sollten wir bis Ende 2026 sehen, wie GPU-Stunden-Spotpreise auf dem Sekundärmarkt von vertraglichen Preisen abweichen – mit nachlassenden Spotpreisen, während langfristige inference-orientierte Verträge stabil bleiben. Das ist die prüfbare Vorhersage.

Was für die KI-Entwicklung bereits eingepreist ist

Einiges davon ist bereits Konsens, und so zu tun, als wäre es das nicht, wäre eine Beleidigung für den Leser.

Die Verschiebung von training-lastigen zu inference-lastigen Infrastrukturausgaben wurde seit mindestens 18 Monaten angekündigt. Wer die Capex-Kommentare der Hyperscaler verfolgte oder mit Platform-Leads in Frontier-Labs sprach, hat dieselbe Aussage gehört: Training ist stoßartig und endet, Serving ist persistent und wächst mit den Nutzern. Die 124-Millionen-Zahl selbst ist nach Maßstäben von 2026 nicht groß. Der Markt hatte Inference bereits seit einiger Zeit als die größere langfristige Workload eingepreist.

Was weniger eingepreist ist – und worüber das Engineering-Publikum meiner Meinung nach nachdenken sollte –, ist die operative Konsequenz. Die Verschiebung von training-dominanten zu inference-dominanten Flotten verändert, wie „gut" für ein Infrastruktur-Team aussieht. Training-Erfolg wird gemessen in Time-to-Converge und Dollar-pro-Checkpoint. Inference-Erfolg wird gemessen in p99-Latenz, Token pro Sekunde pro GPU und Auslastung gemittelt über einen Abrechnungszeitraum. Das sind unterschiedliche Disziplinen, und der Talentpool, der die erste gut beherrschte, ist nicht automatisch der Talentpool, der die zweite gut beherrscht. Database- und CDN-Operatoren sind hier relevanter als ML-Forscher.

Ebenfalls unterbewertet: die Implikation für das Geschäftsmodell der GPU-Broker selbst. Wenn Auslastung die bindende Einschränkung ist, wird die Marge eines Anbieters davon bestimmt, wie gut er Workloads mehrerer Mieter auf derselben Flotte multiplexen kann, ohne SLAs zu verletzen. Das ist ein Workload-Scheduling-Problem, kein Beschaffungsproblem. Die Anbieter, die die nächste Phase gewinnen, sind diejenigen mit besseren Schedulern – nicht diejenigen mit größeren Bestellungen.

Die Gegenmeinung

Die Konsenslesart dieses Deals lautet, dass der Markt gereift ist und Inference-Ökonomie nun dominiert. Ich würde argumentieren, dass es eine plausible alternative Lesart gibt: Das Inference-First-Framing ist teilweise ein narrativer Kniff für Anbieter, die reine Training-Kapazität nicht zu den gewünschten Preisen platzieren konnten.

Man betrachte die Angebotsseite. Hätte die Training-Nachfrage von Frontier-Labs auf der Intensität von 2024 gehalten, müssten unabhängige Anbieter wie QumulusAI ihre Positionierung nicht um Auslastung herum gestalten – denn ihre Cluster wären zu Premiumpreisen für Training vorverkauft. Die Tatsache, dass „Flexibilität für kleineres Training oder Fine-Tuning auf derselben Infrastruktur" jetzt ein Verkaufsargument und nicht mehr der Kern des Angebots ist, deutet darauf hin, dass die Training-Nachfrage aus dem Long-Tail im Verhältnis zur online gehenden Kapazität nachgelassen hat. Inference ist die Workload, die die Lücke füllt.

Das macht den Deal nicht schlechter, ändert aber, was er signalisiert. Es würde bedeuten, dass wir keinen sauberen Übergang von Training zu Inference beobachten. Wir beobachten, wie die Training-Nachfrage der ersten Reihe sich auf eine Handvoll Hyperscale-Käufer konzentriert, während alle anderen um den Inference-Kuchen kämpfen. Die Quelle liefert uns nicht die Daten, um das zu bestätigen oder zu widerlegen, und ich möchte das ausdrücklich festhalten: Wir wissen nicht, welcher Anteil unabhängiger GPU-Kapazität derzeit training-genutzt versus inference-genutzt ist – und genau dieses Verhältnis wäre die einzige Zahl, die die Frage klären würde.

Wichtigste Erkenntnisse

124 Mio. USD ist der Boden, Auslastung ist die Decke. Der Deal-Wert ist weniger wichtig als der vertraglich vereinbarte Duty Cycle, den die Quelle nicht offenlegt. Käufer, die Blackwell-Flotten nicht nahezu ausgelastet halten können, tragen die Differenz.
Inference-Betrieb ist eine eigene Disziplin. Kenntnisse aus CDN- und Datenbankbetrieb übertragen sich besser als Kenntnisse aus der ML-Forschung. Einstellungspläne sollten das widerspiegeln.
Storage und Netzwerk sind keine Commodity-Entscheidungen mehr. Lokale NVMe versus gestufte externe Speicher variieren jetzt je nach Workload auf derselben physischen Flotte. Referenzarchitekturen sind Ausgangspunkte, keine Endpunkte.
Kosten pro Output-Token ist die neue Einheit. Teams, die Open-Source-Modelle selbst hosten, übernehmen die Optimierungsarbeit, die API-Anbieter sonst absorbieren. Der Unterschied zwischen naivem und gut abgestimmtem Deployment ist ein Vielfaches, kein Prozentsatz.
Spot- versus Vertrags-GPU-Preise beobachten. Wenn die Inference-These hält, sollten Spotpreise bis Ende 2026 nachgeben, während langfristige inference-orientierte Verträge stabil bleiben. Diese Divergenz ist der Frühindikator.

Häufig gestellte Fragen

F: Was decken QumulusAIs Verträge über 124 Millionen USD eigentlich ab?

Laut der Quelle belaufen sich die Vereinbarungen auf mehr als 124 Millionen USD mit dreijähriger Laufzeit, sind an Nvidia-Blackwell-Deployments geknüpft und konzentrieren sich auf Inference-Workloads, wobei Hyperbolic als eine der Vertragsparteien genannt wird. Spezifische GPU-Anzahlen, Preise und Auslastungsannahmen wurden nicht offengelegt.

F: Warum wird Leerlauf-GPU-Kapazität als das teuerste Problem beschrieben?

Hyperbolic-CEO Jasper Zhang brachte es direkt auf den Punkt: Produktions-Inference-Workloads laufen kontinuierlich, sodass jede Stunde, in der eine GPU im Leerlauf ist, unwiederbringlich entgangene Einnahmen gegenüber fixen Capex- und Energiekosten darstellt. Im Gegensatz zu Training, das stoßartig und endlich ist, müssen Inference-Flotten für anhaltende Duty Cycles dimensioniert und geplant werden.

F: Was sollten Engineering-Teams aus der Verschiebung von Training zu Inference mitnehmen?

Die Fähigkeiten und Werkzeuge, die im Training-Zeitalter erfolgreich waren, gewinnen nicht automatisch im Inference-Zeitalter. Inference-Optimierung belohnt Disziplinen, die näher am CDN- und Datenbankbetrieb liegen: Latenz-Budgetierung, Multi-Tenant-Scheduling, Token-pro-Sekunde-pro-GPU-Tuning und SLA-getriebene Kapazitätsplanung – statt Time-to-Checkpoint-Metriken.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// ÄHNLICHE ARTIKEL

PwC beim Veröffentlichen von KI-Schrottinhalten als Thought Leadership erwischt

PwC Naher Osten veröffentlichte KI-Berichte, in denen ein Teenager-Medium-Blogger als Primärquelle für eine JPMorgan-Fallstudie zitiert wird. Die Big Four scheitern immer wieder an ihrer eigenen KI-Governance.

Gartner: KI-Coding-Kosten übersteigen Entwicklergehälter bis 2028

Gartner warnt: KI-Coding-Kosten übersteigen bis 2028 das durchschnittliche Entwicklergehalt. Token-Verbrauch ist die neue Gehaltsabrechnung – die meisten Teams wissen nicht, wie sie ihn lesen sollen.

Dentsu und Adobe setzen auf GEO, während KI-Suche das SEO verdrängt

Dentsu Digital und Adobe haben am 27. Juli einen Generative Engine Optimization-Service gestartet, der verfolgt, wie Marken in Antworten von ChatGPT und Gemini zitiert werden.