NVIDIA wird zum Cloud-Vermieter mit Revenue-Share-GPU-Deal
Wer in den letzten achtzehn Monaten versucht hat, einen mehrjährigen GPU-Vertrag zu unterzeichnen, kennt den Witz: Das Hardware-Angebot ist der einfache Teil – die Finanzierung ist der Punkt, an dem Deals scheitern. NVIDIAs Antwort, am 1. Juli angekündigt, besteht darin, aufzuhören so zu tun, als wäre man nur ein Hardware-Anbieter, und stattdessen als Cloud-Vermieter aufzutreten. Die Schlagzeile ist ein Firmus-Campus in Batam, der auf 360 Megawatt und bis zu 170.000 GPUs skaliert, abgesichert durch eine Revenue-Share- und Kreditunterstützungsstruktur anstelle einer einfachen Bestellung.
Die Zahlen
Beginnen wir mit dem physischen Ausmaß. Wie der NVIDIA Blog berichtete, baut Firmus Technologies einen DSX-AI-Factory-Campus in Batam, Indonesien, der voraussichtlich auf 360 Megawatt skaliert und bis zu 170.000 NVIDIA GPUs unterstützt. Zum Vergleich: Dieser einzelne Standort entspricht in etwa dem Energiebedarf einer mittelgroßen Aluminiumhütte – nur dass er der Token-Generierung gewidmet ist.
Sharon AI ist der andere namentlich genannte Partner und setzt bis zu 40.000 NVIDIA Grace Blackwell GB300 GPUs ein. Zu den öffentlich diskutierten GB300-Preispunkten ist das eine Hardware-Rechnung, die über dem liegt, was die meisten Staatsfonds in einer einzigen Tranche genehmigen würden. Die Tatsache, dass dies im Rahmen einer Revenue-Share-Vereinbarung statt eines Barkaufs geschieht, sagt alles darüber aus, wie Kapital in diesem Zyklus fließt.
Die kommerzielle Struktur hat vier erwähnenswerte Bestandteile. AI-Clouds beschaffen die Infrastruktur. Sie verkaufen NVIDIA-betriebene Dienste an KI-native, Enterprise- und ISV-Kunden. NVIDIA erzielt standardmäßige Produkterlöse aus dem Silizium. Und, entscheidend, NVIDIA erhält auch einen Anteil an den Cloud-Erlösen der unterstützten Kapazität. Das eigene Framing des Unternehmens bezeichnet dies als wiederkehrenden, nutzungsgebundenen Einkommensstrom.
In Betreibersprache übersetzt: NVIDIA hat sich gerade stillschweigend in einen Cloud-Royalty-Holder verwandelt, zusätzlich zu seiner Rolle als Chip-Anbieter. Jeder Fine-Tuning-Job, jeder agentische Inferenzaufruf, der auf dieser unterstützten Kapazität läuft, speist nun zwei P&Ls gleichzeitig. Die explizit im Scope enthaltenen Workloads sind Modelltraining, Post-Training, Fine-Tuning und hochvolumige agentische Inferenz. Letzteres ist wichtig. Agentische Inferenz ist der Punkt, an dem der Token-Verbrauch nichtlinear wird, da eine einzelne Nutzeranfrage im Hintergrund in Hunderte von Tool-Calls auffächern kann.
Die genannten Nachfragebeispiele sind Baseten, Fireworks AI und Together AI. Keines von ihnen betreibt eigene Fabs. Alle verbrennen Kapazität in einem Tempo, das traditionelle Colo-Beschaffungszyklen prähistorisch wirken lässt. Produktionsvorfälle bei schnell wachsenden Inferenz-Anbietern, die ich erlebt habe, lassen sich meist auf dieselbe Ursache zurückführen: Kapazitätszusagen, die vor sechs Monaten gegen eine Nachfragekurve gemacht wurden, die sich in vier Monaten verdoppelt hat. Dieses Modell ist genau für diesen Mismatch konzipiert.
Was wirklich neu ist
Wenn man den Pressemitteilungsglanz abzieht und fragt, was sich wirklich verändert hat, bleiben drei Dinge übrig.
Erstens ist NVIDIA nun eine Gegenpartei im Finanzierungsstack, nicht nur ein Lieferant an dessen Spitze. Die Kreditunterstützungskomponente bedeutet, dass das Unternehmen seine Bilanz hinter AI-Cloud-Betreibern einsetzt, die sonst Schwierigkeiten hätten, Schulden gegen GPU-Sicherheiten aufzunehmen, die sich auf einer Achtzehnmonatskurve abschreiben. Banken waren gegenüber der Kreditvergabe gegen Hopper- und Blackwell-Inventar allergisch, weil niemand dem Restwertmodell vertraut. NVIDIA schon – weil NVIDIA es festlegt.
Zweitens dreht der Revenue-Share den Anreiz bei der Auslastung um. Bei einem reinen Verkaufsmodell bucht NVIDIA Umsatz beim Versand und kümmert sich dann ehrlich gesagt nicht darum, ob die GPUs mit 30% oder 90% Auslastung laufen. Bei diesem Modell ist Leerlaufkapazität entgangener wiederkehrender Umsatz für Santa Clara. Erwarten Sie, dass NVIDIAs Software-, Scheduling- und MIG-Slicing-Roadmap deutlich aggressiver wird, um die Auslastung zu maximieren – denn sie essen jetzt ihre eigene Küche.
Drittens ist das geografische Muster anders. Batam ist nicht Ashburn. Sharon AI setzt auf souveräne Rechenkapazität. Das ist der Chiphersteller, der aktiv Nicht-Hyperscaler-Regionen mit markengebundener Kapazität besetzt, die als DSX-AI-Factories bezeichnet wird. Das ist eine direkte Absicherung gegen die drei US-Hyperscaler, die derzeit NVIDIAs Umsatzkonzentrationsrisiko bestimmen.
Meine Einschätzung: Das Interessante ist nicht die GPU-Anzahl, sondern die Tatsache, dass NVIDIA aufgehört hat, AWS, Azure und GCP als einzigem Vertriebskanal für sein teuerstes Silizium zu vertrauen. Das Unternehmen hat beobachtet, was Microsoft mit OpenAIs Compute-Verträgen gemacht hat, und entschieden, dass vertikale Ausrichtung wertvoller ist als Kanalneutralität.
Was nicht neu ist: der zugrunde liegende Kundenschmerz. Modellentwickler wollten schon immer schnelleren Zugang zu Kapazität, ohne Standortauswahl, Strombeschaffung, Bau und Hardware-Inbetriebnahme abwarten zu müssen. Das ist eine fünfzehn Jahre alte Beschwerde. Was neu ist, ist der Anbieter, der einen Teil der Rechnung übernimmt, um den Zyklus zu verkürzen.
Was für die KI-Entwicklung bereits eingepreist ist
Für leitende Ingenieure und Plattformverantwortliche sind die meisten oberflächlichen Implikationen bereits in die Planung für 2026 eingeflossen. Alle gehen davon aus, dass GB300-Kapazität weiter ankommt. Alle gehen davon aus, dass die Kosten für agentische Inferenz bis Jahresende die Rechnung dominieren. Alle gehen davon aus, dass regionale KI-Clouds proliferieren. Wenn Sie eine Inferenzplattform auf Basis von Anbietern wie Baseten, Fireworks oder Together betreiben, ändert diese Ankündigung Ihre Architektur nicht in der nächsten Woche.
Was nicht eingepreist ist: der Zweitrundeneffekt auf die Unit Economics. Wenn NVIDIA einen Anteil an den Cloud-Erlösen nimmt, muss diese Marge irgendwo herkommen. Entweder absorbiert der AI-Cloud-Betreiber sie, oder sie wird als leicht schlechtere Dollar-pro-Token-Rate im Vergleich zu einem nicht unterstützten Deployment an den Kunden weitergegeben. Teams, die Kostenmodelle erstellen und Commodity-GPU-Preise für diese DSX-ausgerichteten Factories annehmen, sollten diese Annahme einem Stresstest unterziehen. Die agentischen Muster, die die Workloads 2026 dominieren – bei denen eine einzelne Anfrage lange Tool-Use-Ketten auslösen kann – sind genau die Workloads, an denen NVIDIA nun beteiligt ist.
Ebenfalls unterbewertet: Die Kreditunterstützungskomponente verändert, wer in den Markt eintreten kann. Ein regionaler Betreiber mit einem guten Stromvertrag, aber einer schwachen Bilanz, war zuvor ausgesperrt. Das ist jetzt nicht mehr der Fall. Erwarten Sie in den nächsten vier Quartalen eine Welle von zweitrangigen KI-Clouds in Südostasien, am Golf und in Lateinamerika, die alle souveräne Rechenkapazität mit NVIDIA-Finanzierungsgerüst darunter anbieten.
Fazit für Plattformteams: Überarbeiten Sie Ihre Anbietermatrix. Die alte Unterscheidung zwischen Hyperscaler und Neocloud wird durch NVIDIA-ausgerichtet versus nicht-NVIDIA-ausgerichtet ersetzt. Das ist die Achse, die Kapazitätsverfügbarkeit und Preisverhalten 2027 tatsächlich vorhersagen wird.
Konträre Sichtweise
Die Konsensmeinung lautet, dass dies gut für KI-native Entwickler ist, weil Kapazität billiger und schneller zugänglich wird. Ich bin nicht überzeugt.
Die unbequeme Lesart: Revenue-Share-Modelle konsolidieren historisch die Macht bei der Partei, die den knappen Input besitzt, nicht bei der Partei, die ihn mietet. NVIDIA besitzt den knappen Input. AI-Cloud-Betreiber, die diese Deals unterzeichnen, tauschen heute Bilanzrisiko gegen dauerhafte Margenkompression. Wenn GB300-Nachfolger den Software-Burggraben von NVIDIA weiter ausbauen und die CUDA-Bindung durch DSX-ausgerichtetes Tooling vertieft wird, wird die Ausstiegsrampe des Betreibers jedes Jahr enger.
Es gibt eine zweite Sorge. Ein 360-Megawatt-Campus in Batam ist eine physisch enorme Wette auf eine einzige Jurisdiktion. Teams, mit denen ich in regulierten Branchen gearbeitet habe, werden Meinungen dazu haben, Inferenz für europäische oder US-amerikanische Kunden durch indonesische souveräne Infrastruktur zu leiten. Datenresidenz, Exportkontrollen für Modellgewichte und grenzüberschreitende Latenz werden zu aktiven Engineering-Problemen, nicht zu Beschaffungs-Fußnoten.
Und wenn sich die KI-Inferenz-Nachfragekurve 2027 auch nur moderat abflacht, erzielt NVIDIA weiterhin Produktumsatz auf versandtem Silizium. Der Betreiber, der einen halb ausgelasteten Campus und eine Revenue-Share-Verpflichtung hält, nicht. Das Abwärtsrisiko ist asymmetrisch.
Wichtigste Erkenntnisse
- NVIDIA ist nun ein Revenue-Share-Gegenpart für Cloud-Dienste, nicht nur ein Chip-Anbieter. Wiederkehrende, nutzungsgebundene Einnahmen verändern, wie das Unternehmen Auslastung und Software-Bindung vorantreiben wird.
- Sharon AI (bis zu 40.000 GB300 GPUs) und Firmus (360 MW, bis zu 170.000 GPUs in Batam) sind die Ankermieter. Erwarten Sie, dass mehr regionale Betreiber innerhalb von zwei Quartalen ähnliche Strukturen unterzeichnen.
- Agentische Inferenz ist explizit im Scope. Kostenmodelle, die auf flachen Token-Preisen basieren, müssen berücksichtigen, dass ein Anbieter einen Anteil an der unterstützten Kapazität erhält.
- Die Kreditunterstützungskomponente ist die eigentliche Neuerung. Sie ermöglicht es Betreibern ohne Hyperscaler-Bilanz, GPU-Inventar zu finanzieren, das Banken allein nicht anfassen würden.
- Plattformverantwortliche sollten ihre Anbietermatrix entlang der Linien DSX-ausgerichtet versus unabhängig neu segmentieren. Diese Unterscheidung wird Kapazität und Preisgestaltung 2027 besser vorhersagen als die alte Hyperscaler-vs-Neocloud-Aufteilung.
Häufig gestellte Fragen
F: Was ist NVIDIAs neues Revenue-Share-Modell für KI-Compute?
NVIDIA ermöglicht es AI-Cloud-Betreibern, seine Infrastruktur im Rahmen einer Revenue-Share- und Kreditunterstützungsstruktur zu beschaffen. NVIDIA erzielt standardmäßige Produkterlöse aus der Hardware zuzüglich eines Anteils an den Cloud-Erlösen, die auf der unterstützten Kapazität generiert werden, was einen wiederkehrenden, nutzungsgebundenen Einkommensstrom ergibt.
F: Wie groß sind die Deployments von Sharon AI und Firmus?
Sharon AI setzt bis zu 40.000 NVIDIA Grace Blackwell GB300 GPUs ein. Firmus baut einen DSX-AI-Factory-Campus in Batam, Indonesien, der voraussichtlich auf 360 Megawatt skaliert und bis zu 170.000 NVIDIA GPUs unterstützt.
F: Welche Workloads zielt dieses neue Infrastrukturmodell ab?
Das Modell zielt auf Modelltraining, Post-Training, Fine-Tuning und hochvolumige agentische Inferenz ab. Als Beispiele für die Art der KI-nativen Nachfrage, die es bedient, werden Baseten, Fireworks AI und Together AI genannt – alle benötigen sofortigen Zugang zu groß angelegten beschleunigten Compute-Ressourcen, wenn die Nutzung vom Piloten in die Produktion skaliert.
Workday führt Agent Passport ein – Cisco als einziger Testpartner
Workday Agent Passport startet Q3 2026 in Early Access mit nur einem Testpartner – Cisco – und ohne Antwort darauf, wer haftet, wenn ein geprüfter Agent Fehler macht.
Base44 trainiert eigenes Modell im KI-Wettbewerb um Verteidigungsfähigkeit
Base44 hat Base1 eingeführt – ein eigenes LLM, das auf Nutzerdaten trainiert wurde, als Wette darauf, dass vertikale Integration das tokenweise Mieten von Claude Opus übertrifft.
DeepMind's Brain Drain: Shazeer und Jumper gehen binnen 48 Stunden
Zwei der bekanntesten Namen bei Google DeepMind gingen binnen 48 Stunden. Der Markt strich 5 % vom Google-Aktienkurs. Was dieser Exodus technisch wirklich bedeutet.




