Jalapeño inference chipAI ASICLLM acceleratorOpenAI Broadcom ASIC tape out 9 monthsgigawatt scale AI inference chip 2026

OpenAI und Broadcom tapen Jalapeño Inferenz-Chip in 9 Monaten

26 Jun 20267 Min. LesezeitSarah Chen

// IN DIESEM ARTIKEL

01Was geschah 02Technische Architektur 03Wer verliert 04Handlungsempfehlungen für die KI-Entwicklung 05Wichtigste Erkenntnisse 06Häufig gestellte Fragen

Neun Monate vom ersten Entwurf bis zum Tape-out. Das ist die Zahl, die OpenAI und Broadcom für Jalapeño in den Raum stellen, den am 24. Juni vorgestellten Inferenzbeschleuniger. Die Unternehmen bezeichnen ihn als den schnellsten ASIC-Zyklus, der je in der Hochleistungs-Halbleiterentwicklung erreicht wurde. Zum Vergleich: Ein herkömmliches ASIC-Programm dieser Klasse benötigt typischerweise 18 bis 36 Monate von der Spezifikation bis zum fertigen Chip – der Anspruch entspricht also einer Halbierung bis Viertelung des Branchenstandards. Der Chip wurde Sam Altman und Greg Brockman physisch von Broadcoms Hock Tan und Charlie Kawwas überreicht, was genau die Art von inszeniertem Übergabefoto ist, das man nur dann macht, wenn man den Markt als Nvidia-Gegenbewegung interpretieren lassen möchte.

Was geschah

Wie OpenAI berichtete, ist Jalapeño der erste Intelligence Processor des Unternehmens und der erste KI-Beschleuniger einer geplanten Multi-Generationen-Rechenplattform, die gemeinsam mit Broadcom (NASDAQ: AVGO) entwickelt wird. Die erklärte Positionierung ist eng gefasst: ein LLM-optimierter Inferenzbeschleuniger – kein Trainings-Chip, keine Allzweck-GPU. Engineering-Samples laufen bereits im Labor mit ML-Workloads bei Produktionszielfrequenz und -leistung, darunter GPT-5.3-Codex-Spark, was darauf hindeutet, dass das Team die grundlegende Inbetriebnahme hinter sich hat und sich in der Workload-Charakterisierungsphase befindet.

Die Partnerliste ist bewusst gewählt. Broadcom verantwortet die Chip-Implementierung, Vernetzung und Konnektivität, einschließlich seines Tomahawk-Networking-Siliziums. Celestica übernimmt Board-, Rack- und Systemintegration. Microsoft ist als Deployment-Partner für Gigawatt-Rechenzentren ab 2026 benannt. Der erste Einsatz ist für Ende 2026 geplant, das Programm erstreckt sich über mehrere Generationen.

Richard Ho leitet OpenAIs Hardware-Programm, und seine Aussage lautet, dass Jalapeño ein Blank-Slate-Design ist – kein Allzweckbeschleuniger, der aus früheren KI-Workloads adaptiert wurde. Diese Formulierung hat eine klare Funktion: Sie ist ein expliziter Kontrast zur installierten Basis der Hopper- und Blackwell-GPUs, die derzeit die frontier-Inferenz bedienen. OpenAI bestätigte außerdem den Einsatz eigener Modelle zur Beschleunigung von Teilen des Design- und Optimierungsprozesses – das ist der erste öffentliche Anspruch, den ich von einem Frontier-Lab gesehen habe, dass seine eigenen LLMs einen Tape-out-Zeitplan wesentlich verkürzt haben. Ein detaillierter Performance-Bericht ist für die kommenden Monate angekündigt. Bis dahin ist das einzige Leistungssignal qualitativ: „wesentlich bessere" Leistung pro Watt als aktuelle fortschrittliche Chips.

Technische Architektur

Der architektonische Ansatz basiert auf drei Behauptungen. Erstens reduziert Jalapeño die Datenbewegung. Zweitens balanciert er Rechen-, Speicher- und Netzwerkressourcen. Drittens zielt er auf eine realisierte Auslastung, die deutlich näher am theoretischen Spitzenwert liegt. Das sind für sich genommen keine neuartigen Ziele – jeder Beschleuniger-Hersteller formuliert sie ähnlich. Interessant ist jedoch, wie OpenAI den Design-Punkt rahmt: Der Chip wurde durch die Systeme informiert, die OpenAI tatsächlich über ChatGPT, Codex, die API und zukünftige agentische Produkte betreibt. Das ist ein workload-first Design-Loop, bei dem die Kernels, Speicherbewegungsmuster und Serving-Muster des realen Produktionsverkehrs das Silizium bestimmen – nicht umgekehrt.

Das Networking-Element ist wichtiger, als die Schlagzeilen vermuten lassen. Tomahawk ist Broadcoms führendes Ethernet-Switching-Silizium, und die Paarung mit dem Beschleuniger ist eine Wette, dass scale-out Inferenz im Gigawatt-Maßstab Ethernet-Fabric-basiert sein wird und nicht InfiniBand-gebunden. Wenn Jalapeño-Racks mit Tomahawk als Standard-Fabric ausgeliefert werden, ist das ein Richtungssignal dafür, wie Hyperscaler-Inferenzcluster bis 2027 aussehen werden.

Die Quelle gibt keinen Prozessknoten, keine Speicherkonfiguration (HBM-Generation, Kapazität pro Paket, Bandbreite), keine Die-Größe, keine TDP und keine Interconnect-Topologie zwischen Beschleunigern preis. Das sind die vier Zahlen, die es jedem ermöglichen würden, den Perf-per-Watt-Anspruch tatsächlich zu bewerten. Wir kennen sie noch nicht, aber folgendes gilt: Wenn Jalapeño Ende 2026 im Gigawatt-Maßstab eingesetzt werden soll, wurde er mit hoher Wahrscheinlichkeit auf einem bereits in Volume befindlichen Leading-Edge-Knoten getaped out (3nm-Klasse), und er verwendet mit hoher Wahrscheinlichkeit HBM3E oder HBM4. Alles andere und der Perf-per-Watt-Anspruch gegenüber Blackwell-Silizium hält nicht stand.

Die offene Frage, die ich den Lesern mitgeben möchte: Wie hoch ist die realisierte Auslastungsrate? OpenAI spricht von „deutlich näher am theoretischen Spitzenwert". Aktuelle GPU-Inferenz-Deployments erreichen typischerweise 30 bis 55 Prozent der theoretischen FLOPS-Auslastung für den Transformer-Decode. Wenn Jalapeño bei repräsentativem LLM-Serving 70 Prozent oder mehr erreicht, rechtfertigt das allein das Programm. Wenn es bei 60 Prozent liegt, muss die Perf-per-Watt-Geschichte die gesamte Arbeit leisten. Der technische Bericht wird uns sagen, was zutrifft. Wenn es wie angekündigt verläuft, sollten wir sehen, dass OpenAI innerhalb der nächsten zwei Quartale Auslastungszahlen über 65 Prozent für den Decode veröffentlicht.

Wer verliert

Das offensichtlichste Risiko betrifft Nvidia, aber die Form der Bedrohung ist spezifisch. Jalapeño ist rein auf Inferenz ausgerichtet, und der Multi-Generationen-Fahrplan ist im Gigawatt-Maßstab für einen Kunden (OpenAI) mit einem bislang genannten Cloud-Partner (Microsoft). Das verdrängt Nvidia nicht im Trainingsbereich und berührt den breiteren Enterprise-GPU-Markt kurzfristig nicht. Was es tut: Es nimmt den größten einzelnen Inferenz-Workload der Welt – OpenAIs Serving-Flotte – und bietet einen glaubwürdigen Ausstiegspfad. Wenn Microsoft Azure ab 2027 Jalapeño-gestützte OpenAI-Endpunkte neben Nvidia-gestützten Endpunkten anbietet, verschiebt sich die Verhandlungsposition erheblich.

Die zweite betroffene Gruppe ist das Feld der Merchant-Inferenz-ASICs: Groq, Cerebras, SambaNova, Tenstorrent und in geringerem Maße AMDs MI-Series-Inferenzpositionierung. Ihr Pitch war: „Wir sind die spezialisierte Inferenzalternative zu Allzweck-GPUs." OpenAI hat diesen Pitch gerade internalisiert. Jedes Startup, das Frontier-Lab-Inferenzkosteneinsparungen anbietet, muss nun erklären, warum ein Lab ihren Chip kaufen würde, anstatt seinen eigenen zu entwerfen – und der Neun-Monats-Tape-out-Anspruch lässt die Build-Option günstiger erscheinen als noch vor einem Jahr.

Die dritte Gruppe, weniger offensichtlich, ist jeder, der Open-Weight-Inferenz auf gemieteter GPU-Kapazität betreibt. Wenn OpenAIs Kosten pro Token 2027 aufgrund von Jalapeño wesentlich sinken, kann die API-Preisgestaltung auf der OpenAI-Plattform sinken, ohne die Marge zu belasten. Das verdrängt den wirtschaftlichen Case für selbst gehostete Llama- oder Mistral-Deployments auf gemieteten H100s – genau die Build-versus-Buy-Kalkulation, die viele Fintech- und iGaming-Plattformteams durchgeführt haben. Die nächsten 90 Tage für diese Teams sollten die Neubewertung der Unit Economics mit einem Inferenzpreisrückgang von 30 Prozent als Szenario beinhalten – nicht als Prognose.

Handlungsempfehlungen für die KI-Entwicklung

Für Engineering-Führungskräfte, die in den nächsten zwei Quartalen Infrastrukturentscheidungen treffen, einige konkrete Maßnahmen. Erstens: Nichts jetzt um Jalapeño herum neu architekturieren. Es gibt kein öffentliches SDK, keine Kernel-Level-Dokumentation und keinen angekündigten Zugang für Dritte. Der Chip ist in seiner ersten Generation für OpenAIs eigene Serving-Flotte über Microsoft-Rechenzentren bestimmt. Als API-Nutzer werden Sie Jalapeño als niedrigere Latenz und möglicherweise niedrigeren Preis erleben – nicht als neues Kompilierungsziel.

Zweitens: Abstraktionsschichten zwischen Ihrer Anwendungsschicht und dem Modellanbieter aufbauen. Die Jalapeño-Ankündigung ist ein Signal dafür, dass Frontier-Labs weiterhin mehr vom Stack intern übernehmen werden, was das Provider-Lock-in-Risiko verschlechtert, nicht verbessert. Routieren Sie über MCP oder eine ähnliche Protokollschicht, damit ein Anbieterwechsel im Jahr 2027 eine Konfigurationsänderung ist, kein Rewrite.

Drittens: Den Neun-Monats-Tape-out-Anspruch als Planungsgrundlage ernst nehmen, auch wenn Sie ihn halbieren. Wenn Frontier-Labs mit einer Kadenz unter zwei Jahren eigenes Silizium entwickeln können und dabei ihre eigenen Modelle zur Beschleunigung der Designarbeit nutzen, wird die Inferenzkostenkurve steiler als aktuelle Planungen annehmen. Budgets, die auf flachen Per-Token-Preisen für 2027 und 2028 basieren, liegen wahrscheinlich zugunsten des Kunden falsch. Planen Sie für Kapazität, nicht für Kosten.

Wichtigste Erkenntnisse

Jalapeño ist OpenAIs erster Inferenz-Chip, in neun Monaten gemeinsam mit Broadcom entwickelt, als schnellster ASIC-Zyklus in fortschrittlichen Halbleitern bezeichnet und für den ersten Einsatz bis Ende 2026 geplant.
Die Plattform nutzt Broadcoms Tomahawk-Networking-Silizium und wird mit Celestica industrialisiert, wobei Microsoft der erste Gigawatt-Deployment-Partner ist.
Engineering-Samples laufen bereits GPT-5.3-Codex-Spark-Workloads bei Produktionszielfrequenz und -leistung, aber Prozessknoten, Speicherkonfiguration und Auslastungszahlen wurden noch nicht offengelegt.
Der größte Wettbewerbsradius betrifft Merchant-Inferenz-ASIC-Startups und Nvidias Inferenz- (nicht Trainings-) Umsatz bei einem spezifischen Kunden.
API-Nutzer sollten 2027 mit niedrigeren Inferenzpreisen rechnen und ihren Stack jetzt vor anbieterspezifischem Verhalten schützen – nicht später.

Häufig gestellte Fragen

F: Was ist OpenAIs Jalapeño-Chip?

Jalapeño ist OpenAIs erster Intelligence Processor, ein LLM-optimierter Inferenzbeschleuniger, der gemeinsam mit Broadcom entwickelt wurde. Er wurde von Grund auf für Inferenz-Workloads entworfen und nicht von einem Allzweck-KI-Chip adaptiert. Er ist das erste Produkt einer geplanten Multi-Generationen-Rechenplattform zwischen den beiden Unternehmen.

F: Wann wird Jalapeño eingesetzt?

OpenAI plant den ersten Einsatz bis Ende 2026, mit Gigawatt-Rollouts in Rechenzentren von Partnern einschließlich Microsoft über mehrere Chip-Generationen. Engineering-Samples laufen bereits im Labor ML-Workloads bei Produktionszielfrequenz und -leistung.

F: Wie vergleicht sich Jalapeño mit Nvidia-GPUs?

OpenAI behauptet, frühe Tests zeigten eine wesentlich bessere Leistung pro Watt als aktuelle fortschrittliche Beschleuniger, aber ein detaillierter technischer Bericht wurde noch nicht veröffentlicht. Jalapeño ist ausschließlich auf Inferenz ausgerichtet und für OpenAIs eigene Serving-Flotte gedacht, daher konkurriert er kurzfristig nicht direkt mit Nvidia im Trainingsbereich oder im breiteren Enterprise-GPU-Markt.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Anthropics Claude Tag in Slack: Was Entwickler jetzt wissen müssen

Anthropic hat Claude Tag in Slack eingeführt – ein Multiplayer-Agent auf Basis von Opus 4.8, der den alten Chatbot ersetzt. Was sich ändert und was es zu beachten gibt.

Sakana Fugu als Absicherung gegen LLM-Vendor-Lock-in gestartet

Sakana AI hat Fugu veröffentlicht – ein Orchestrierungsmodell, das Aufgaben über einen austauschbaren Pool aus Frontier-LLMs verteilt. Die ersten Reaktionen sind skeptisch. Was wirklich zählt.

Nvidias 25-Milliarden-Dollar-Schuldenaufnahme: Clevere Optimierung oder Blasensignal?

Nvidia nimmt 25 Mrd. USD Schulden auf und sitzt dabei auf 50 Mrd. Cash und 119 Mrd. USD freiem Cashflow pro Jahr. Die eigentliche Geschichte ist nicht die Bilanz – sondern was KI-Infrastruktur heute erfordert.