Skip to content
RiverCore
Dell und Nvidia setzen auf On-Premises-Inferenz statt gemietete KI-Fabriken
on-prem inferenceagentic AIedge infrastructureon-premises AI inference cost savingsDell Nvidia enterprise AI strategy

Dell und Nvidia setzen auf On-Premises-Inferenz statt gemietete KI-Fabriken

18 Apr 20266 Min. LesezeitSarah Chen

Zwei Manager, ein Pitch: Die agentische Welle ist der zweite ChatGPT-Moment, und die Wirtschaftlichkeit von „Always-on-Inferenz im großen Maßstab" treibt Enterprise-KI-Workloads zurück in Richtung eigener Infrastruktur. Das ist die zentrale These, die Dells Varun Chhabra und Nvidias Anne Hecht diese Woche auf theCUBE vertraten – eine direkte Herausforderung an die seit rund drei Jahren vorherrschende Annahme, dass Frontier-KI dauerhaft in Hyperscaler-Clouds beheimatet sein würde.

Das Interview selbst ist arm an konkreten Zahlen, was von Anfang an festgehalten werden sollte. Was es stattdessen liefert, ist ein klares Bild davon, wie sich zwei der größten Infrastrukturanbieter gegen das „Public Cloud als Standard"-Narrativ positionieren, das die Jahre 2023 bis 2025 geprägt hat.

Die Zahlen

Der quantitative Inhalt dieses Segments ist dünn – und das ist bedeutsam. Chhabra und Hecht sprachen mit theCUBEs John Furrier im Rahmen der AI Factories Interview-Serie aus SiliconANGLEs Studio. Wie SiliconANGLE berichtete, dreht sich die Positionierung um „agentisch" als dominantes Enterprise-Thema. Chhabra nannte die Ankündigungen „OpenClaw" und Nvidias „NemoClaw" als Auslöser. Keiner der beiden Manager nannte Deployment-Zahlen, mit der Dell-Automation-Plattform verbundene Umsätze, Attach-Rates bei Nvidia-gestützten Dell-SKUs oder Token-Durchsatz-Benchmarks für den Confidential-Computing-Stack, auf dem Googles Gemini-Modell jetzt On-Premises läuft.

Dieses Fehlen ist selbst das Signal. Wenn Anbieter einen Kategoriewechsel pitchen, ohne Benchmarks zu liefern, lautet die ehrliche Einschätzung: Die These ist noch qualitativ. Vergleiche das mit dem DeepSeek-Moment, den Hecht aus dem Vorjahr erwähnte – dieser kam mit veröffentlichten Reasoning-Benchmarks, die eine Neuberechnung von Kostenannahmen bei jedem Inferenzanbieter erzwangen. Der agentische Pitch hingegen wird auf Basis von Entwicklerstimmung verkauft („alle fragen uns, wie sie Agentik schneller als je zuvor einführen können") – nicht anhand von Durchsatz-pro-Dollar-Zahlen.

Die eine konkrete architektonische Aussage mit Substanz: Gemini läuft jetzt On-Premises auf einem Dell-Server via Confidential Computing. Das ist eine bedeutende Abkehr vom Cloud-Tenancy-Standard, den Google für seine Frontier-Modelle bisher aufrechterhalten hat. Aus der Quelle ist nicht ersichtlich, welche Gemini-Stufe, wie das Attestierungsmodell aussieht oder wie das Performance-Delta im Vergleich zur verwalteten Gemini API ist. Diese Lücken sind wichtig, denn das gesamte wirtschaftliche Argument der „eigenen KI-Fabrik" bricht zusammen, wenn On-Prem-Inferenz pro Token wesentlich langsamer oder teurer ist als die Hyperscaler-Alternative.

Wenn diese Positionierung real ist, sollte Dell innerhalb von zwei Quartalen mindestens einen namentlich genannten Enterprise-Einsatz mit Token-Durchsatzzahlen offenlegen. Falls bis Q4 2026 nichts geliefert wird, sollte man den agentischen Pitch als Marketing-Overlay auf bestehende ISG-Hardware-Zyklen betrachten.

Was wirklich neu ist

Lässt man die Sprache vom „ChatGPT-Moment für Agentik" beiseite, gibt es drei Dinge, die sich gegenüber der Enterprise-KI-Diskussion von 2024 tatsächlich verändert haben.

Erstens das Workload-Profil. Hechts Beschreibung von Agenten, die über Nacht laufen, Berichte erstellen, Maßnahmen ergreifen und „einen Haufen Tokens verbrennen", entspricht nicht dem Request-Response-Chatbot-Workload, der die letzten zwei Jahre geprägt hat. Agentische Workloads ähneln eher Batch-Jobs mit unvorhersehbarem Fan-out. Ein einzelner Nutzerauftrag kann Dutzende von Modellaufrufen über mehrere Agenten hinweg auslösen. Wenn diese Agenten Unteragenten erzeugen (das „Agenten, die andere Agenten erzeugen"-Muster, das Hecht nannte), wird der Token-Verbrauch kombinatorisch schwer vorhersagbar. Das untergräbt die Pro-Seat-Preisannahmen, auf denen die meisten Enterprise-KI-Budgets 2024 und 2025 aufgebaut wurden.

Zweitens die Confidential-Computing-Geschichte. Frontier-Modelle, die auf kundeneigenem Silizium mit Attestierung laufen, sind eine architektonische Verschiebung, keine Marketingmaßnahme. Sie verändert die regulatorische Kalkulation für Finanzwesen, Gesundheitswesen und alle Workloads, die personenbezogene Daten oder Handelsdaten berühren. Speziell für iGaming- und Fintech-Branchen ist Confidential Computing On-Premises der Unterschied zwischen „wir können dieses Modell evaluieren" und „die Rechtsabteilung hat den Einsatz bis zur Klärung der Datensouveränität blockiert". Die Details des Stacks sind entscheidend, und die Quelle nennt weder die TEE-Implementierung – ob CPU-basiert (Intel TDX, AMD SEV-SNP) oder GPU-basiert (Nvidias H100/Blackwell Confidential-Compute-Modi) – noch den Performance-Overhead. Historisch hat Confidential Computing bei rechenintensiven Workloads 5 bis 15 Prozent Overhead verursacht. Falls das hier gilt, spricht die TCO-Rechnung bei hoher Auslastung weiterhin für On-Prem-Inferenz.

Drittens die Blueprint-Paketierung. Chhabras Verweis auf die Dell Automation Platform plus Nvidia-Blueprints ist ein stillschweigendes Eingeständnis, dass „Kauf die Hardware, löse die Software selbst" als Go-to-Market für Enterprise-KI gescheitert ist. Dieses Eingeständnis ist an sich neu. Ob die Blueprints mehr als Referenzarchitekturen sind, beantwortet die Quelle nicht.

Was für die KI-Entwicklung bereits eingepreist ist

Das meiste davon ist für jeden, der die Token-Ökonomie im Blick hat, bereits erwartet worden. Die Verschiebung hin zu verteilter Inferenz über On-Prem, Edge und Workstations war bereits Ende 2025 absehbar, als die erste Welle von Enterprise-Käufern ihre OpenAI- und Anthropic-Rechnungen nach der unternehmensweiten Einführung von Coding-Assistenten zu Gesicht bekam. Das „Mieten versus Besitzen Ihrer KI-Fabrik"-Framing ist seit mindestens drei Quartalen der Gesprächspunkt von Nvidia und Dell.

Was noch nicht eingepreist ist: die Geschwindigkeit, mit der agentische Systeme verbrauchsbasierte Preismodelle sprengen werden. Wenn Hechts Beschreibung autonomer Nacht-Agenten zum Standard-Interaktionsmuster wird, wird die Lücke zwischen planbaren SaaS-Budgets und tatsächlichem Token-Verbrauch entweder aggressive Obergrenzen erzwingen (die das Produkterlebnis zerstören) oder einen Capex-Schwenk (der Dell und Nvidia begünstigt). Die interessante Frage für Plattformverantwortliche ist, was zuerst eintritt – und ob Modellanbieter wie Anthropic ihre Preisstrukturen schnell genug anpassen, um den verwalteten Weg wettbewerbsfähig zu halten. Die Anthropic-Dokumentation deutet bereits auf abgestufte Ansätze für Tool-Use- und Computer-Use-Muster hin, aber die Preisstruktur hat mit Agent-of-Agents-Topologien noch nicht Schritt gehalten.

Ebenfalls noch nicht eingepreist: Governance. Chhabra thematisierte das Spannungsfeld zwischen Produktivität und Aufsicht – genau hier werden die meisten Enterprise-Deployments 2026 ins Stocken geraten. Zu definieren, welche Befugnisse ein Agent hat, Maßnahmen zu ergreifen, und zu auditieren, was er getan hat, ist noch ein auf dem Papier gelöstes Problem. Die MCP-Spezifikation hilft auf der Integrationsseite, beantwortet aber nicht die Autorisierungsfrage.

Die Gegenperspektive

Die konsensuelle Lesart dieses Interviews wird lauten: Agentik ist der neue Workload, On-Prem ist zurück, Dell und Nvidia sind gut positioniert. Ich würde argumentieren, dass die Gegenperspektive schwer zu ignorieren ist.

Enterprise-Infrastruktur-Pitches folgen einem wiederkehrenden Muster. Alle zwei Jahre kündigt eine Anbieterpartnerschaft an, dass sich das Workload-Profil grundlegend verändert hat und der Besitz des Stacks die Antwort sei. Hadoop. Private Cloud. Edge Computing. Jeder Zyklus hatte eine legitime These, und jeder Zyklus endete damit, dass die Hyperscaler den Großteil des Workloads absorbierten – weil die Betriebslast die theoretische TCO für alle außer dem obersten Quintil der Unternehmen nach Größe schlug.

Der agentische Pitch hat dieselbe Form. Ja, die Token-Ökonomie sieht bei aktuellen Managed-Service-Preisen schmerzhaft aus. Aber die Managed-Anbieter haben jeden Anreiz, Preise schneller zu senken als Dell Racks liefern kann – und sie haben das in den letzten achtzehn Monaten bereits zweimal getan. Solange Confidential Computing keinen regulatorischen Burggraben liefert, den Hyperscaler wirklich nicht überwinden können (und Googles Betrieb von Gemini auf Dell-Hardware deutet darauf hin, dass die Hyperscaler das bemerkt haben), wird die On-Prem-KI-Fabrik-Geschichte eher den Top-200-Unternehmen dienen als zum Standard zu werden.

Wichtigste Erkenntnisse

  • Das Framing „Agentik als ChatGPT-Moment" von Dell und Nvidia ist ein qualitativer Pitch ohne veröffentlichte Durchsatz- oder Deployment-Zahlen in der Quelle. Verlange Benchmarks, bevor du deine Infrastruktur-Roadmap umschreibst.
  • Gemini On-Prem auf Dell via Confidential Computing ist die einzige wirklich konkrete technische Aussage und die, die es zu verfolgen lohnt. Die TEE-Implementierung und der Performance-Overhead sind nicht offengelegt und bestimmen, ob die Wirtschaftlichkeit funktioniert.
  • Agentische Workloads sprengen Pro-Seat- und Pro-Request-Preisannahmen. Plattformverantwortliche in Fintech und iGaming sollten den Token-Verbrauch unter Agent-spawning-Agent-Topologien modellieren, bevor sie mehrjährige Managed-Verträge unterzeichnen.
  • Dell Automation Platform plus Nvidia-Blueprints sind ein Eingeständnis, dass ein nur-Hardware-Go-to-Market für Enterprise-KI gescheitert ist. Ob die Blueprints operativ nützlich oder Marketing-Artefakte sind, ist die offene Frage.
  • Zu beobachten: Falls Dell bis Q4 2026 keinen namentlich genannten Enterprise-Einsatz mit echten Token-Durchsatzzahlen offenlegen kann, sollte der agentische Infrastruktur-Pitch auf eine normale ISG-Hardware-Zyklus-Geschichte herabgestuft werden.

Häufig gestellte Fragen

F: Was haben Dell und Nvidia in diesem Interview tatsächlich angekündigt?

Es wurden keine Produkteinführungen angekündigt. Varun Chhabra und Anne Hecht beschrieben, wie agentische KI-Workloads Enterprise-Infrastrukturentscheidungen verändern, verwiesen auf OpenClaw und Nvidias NemoClaw und betonten, dass Googles Gemini-Modell jetzt On-Premises auf einem Dell-Server via Confidential Computing laufen kann. Das Segment war Positionierung, kein Produktlaunch.

F: Warum ist Confidential Computing für den Betrieb von Gemini On-Prem relevant?

Confidential Computing nutzt hardwarebasierte Trusted Execution Environments, sodass Frontier-Modellgewichte und Kundendaten auch während der Inferenz verschlüsselt bleiben. Das ermöglicht regulierten Branchen, Modelle wie Gemini auf eigener Hardware zu betreiben, ohne das Modell-IP oder die Eingabedaten preiszugeben – genau das ist die rechtliche Hürde, die viele Fintech- und Gesundheits-Workloads bisher von Managed-KI-Diensten ferngehalten hat.

F: Kostet das „Besitzen einer eigenen KI-Fabrik" wirklich weniger als die Miete bei einem Hyperscaler?

Das hängt vollständig von der Auslastung ab. Bei hochvolumigen Always-on-Inferenz-Workloads wie agentischen Systemen, die Nachtaufgaben ausführen, kann Capex auf dedizierter Infrastruktur die Kosten gegenüber verbrauchsbasierter Abrechnung stabilisieren. Bei unregelmäßigen oder gering ausgelasteten Workloads gewinnen Managed Services bei der TCO fast immer. Die Quelle veröffentlicht keine Vergleichszahlen, daher müssen Unternehmen ihre eigenen Token-Volumen modellieren, bevor sie Entscheidungen treffen.

SC
Sarah Chen
RiverCore Analyst · Dublin, Ireland
TEILEN
// RELATED ARTICLES
StartseiteLösungenProjekteÜber unsKontakt
News06
Dublin, Irland · EUGMT+1
LinkedIn
🇩🇪DE