OpenAI та Broadcom створили інференс-чип Jalapeño за 9 місяців
Дев'ять місяців від початку розробки до тейп-ауту. Саме таку цифру OpenAI та Broadcom виставляють на огляд для Jalapeño — інференс-акселератора, представленого 24 червня. Компанії називають це найшвидшим циклом ASIC, коли-небудь досягнутим у сфері високопродуктивних передових напівпровідників. Для порівняння: стандартна програма розробки провідного ASIC такого класу зазвичай займає від 18 до 36 місяців від специфікації до кремнію, тобто заявлене скорочення становить приблизно 2–4 рази відносно галузевого базового рівня. Чип було фізично передано Сему Альтману та Грегу Брокману від Хока Тана та Чарлі Каввасa з Broadcom — це той вид постановочної фотографії передачі, який роблять лише тоді, коли хочуть, щоб ринок сприйняв це як крок у бік конкуренції з Nvidia.
Що сталося
Як повідомила OpenAI, Jalapeño є першим Intelligence Processor компанії та першим AI-акселератором у запланованій багатопоколінній обчислювальній платформі, розробленій спільно з Broadcom (NASDAQ: AVGO). Заявлене позиціонування є вузьким: LLM-оптимізований інференс-акселератор, а не навчальний чип і не GPU загального призначення. Інженерні зразки вже виконують ML-навантаження в лабораторії на виробничій цільовій частоті та потужності, включно з GPT-5.3-Codex-Spark, що свідчить про те, що команда вийшла за межі базового етапу запуску і перейшла до характеризації навантажень.
Список партнерів є обдуманим. Broadcom відповідає за реалізацію чипа, мережеве забезпечення та підключення, включно зі своїм мережевим кремнієм Tomahawk. Celestica займається інтеграцією плат, стійок і систем. Microsoft названа партнером із розгортання для гігаватних центрів обробки даних починаючи з 2026 року. Початкове розгортання заплановано на кінець 2026 року, а програма масштабується на кілька поколінь.
Ричард Хо керує апаратною програмою OpenAI, і він позиціонує Jalapeño як дизайн із чистого аркуша, а не акселератор загального призначення, адаптований із попередніх AI-навантажень. Це формулювання має реальний сенс: воно є явним контрастом із встановленою базою GPU Hopper і Blackwell, що наразі обслуговують передовий інференс. OpenAI також підтвердила, що використовувала власні моделі для прискорення частини процесу розробки й оптимізації — це перша публічна заява, яку я бачив від передової лабораторії про те, що її власні LLM суттєво скоротили терміни тейп-ауту. Детальний звіт про продуктивність обіцяно найближчими місяцями. До тих пір єдиним сигналом щодо продуктивності є якісний: «суттєво краща» продуктивність на ват порівняно з поточними передовими рішеннями.
Технічна анатомія
Архітектурна подача спирається на три твердження. По-перше, Jalapeño зменшує переміщення даних. По-друге, він балансує обчислювальні ресурси, пам'ять і мережеві ресурси. По-третє, він орієнтований на реалізовану утилізацію, значно ближчу до теоретичного піку. Жодна з цих цілей сама по собі не є новою — кожен виробник акселераторів про них говорить. Однак спосіб, у який OpenAI формулює точку проектування, є цікавим: чип створено з урахуванням систем, які OpenAI реально запускає в ChatGPT, Codex, API та майбутніх агентних продуктах. Це дизайнерський цикл, орієнтований на навантаження, де ядра, патерни переміщення пам'яті та патерни обслуговування реального виробничого трафіку диктують кремній, а не навпаки.
Мережева складова важливіша, ніж випливає із заголовків. Tomahawk є флагманським кремнієм для комутації Ethernet від Broadcom, і поєднання його з акселератором є ставкою на те, що масштабований інференс гігаватного масштабу базуватиметься на Ethernet-фабриці, а не буде прив'язаний до InfiniBand. Якщо стійки Jalapeño постачатимуться з Tomahawk як стандартною фабрикою, це є спрямованим сигналом щодо того, як виглядатимуть інференс-кластери гіперскейлерів до 2027 року.
Джерело не розкриває технологічний вузол, конфігурацію пам'яті (покоління HBM, ємність на пакет, пропускна здатність), розмір кристала, TDP або топологію міжз'єднань між акселераторами. Це чотири цифри, які дозволили б будь-кому реально оцінити заяву про продуктивність на ват. Ми їх ще не знаємо, але межа така: якщо Jalapeño орієнтований на розгортання наприкінці 2026 року в гігаватному масштабі, він майже напевно виготовлений на провідному вузлі, що вже перебуває в серійному виробництві (клас 3 нм), і майже напевно використовує HBM3E або HBM4. Без цього заява про продуктивність на ват порівняно з кремнієм покоління Blackwell не витримає.
Питання без відповіді, на яке я хотів би звернути увагу читачів: яким є показник реалізованої утилізації? OpenAI каже «значно ближче до теоретичного піку». Поточні розгортання GPU-інференсу зазвичай працюють на рівні 30–55 відсотків від теоретичної утилізації FLOPS для трансформерного декодування. Якщо Jalapeño досягне 70 відсотків або більше на репрезентативному LLM-обслуговуванні, це само по собі виправдовує програму. Якщо він зупиниться на 60 відсотках, вся робота має лягати на плечі показника продуктивності на ват. Технічний звіт скаже нам, яке з двох. Якщо все відбудеться так, як заявлено, ми повинні побачити, як OpenAI опублікує показники утилізації вище 65 відсотків для декодування протягом наступних двох кварталів.
Хто опиниться під ударом
Найочевиднішим є вплив на Nvidia, але форма загрози є специфічною. Jalapeño — лише для інференсу, а багатопоколінній дорожній карті — гігаватний масштаб для одного клієнта (OpenAI) з одним хмарним партнером (Microsoft), названим наразі. Це не витісняє Nvidia з навчання й не зачіпає ширший корпоративний ринок GPU у короткостроковій перспективі. Але воно бере найбільший у світі одиничний інференс-воркфлоу — флот обслуговування OpenAI — і створює для нього переконливий вихід. Якщо Microsoft Azure у 2027 році почне пропонувати ендпоінти OpenAI на базі Jalapeño поряд із ендпоінтами на базі Nvidia, переговорна позиція зміниться.
Друга група під впливом — це ринок комерційних інференс-ASIC: Groq, Cerebras, SambaNova, Tenstorrent і меншою мірою інференс-позиціонування серії AMD MI. Їхня теза полягала в тому, що «ми є спеціалізованою інференс-альтернативою GPU загального призначення». OpenAI щойно інтерналізувала цю тезу. Будь-який стартап, що пропонує передовим лабораторіям економію на вартості інференсу, тепер має пояснити, чому лабораторія купить їхній чип замість того, щоб розробити власний, а заява про дев'ятимісячний тейп-аут робить варіант власної розробки менш дорогим, ніж він виглядав рік тому.
Третя група, менш очевидна, — це всі, хто запускає інференс на моделях із відкритими вагами на орендованих GPU. Якщо вартість обслуговування за токен у OpenAI суттєво впаде у 2027 році завдяки Jalapeño, ціни на API на платформі OpenAI можуть знизитися без стиснення маржі. Це звужує економічне обґрунтування для самостійного хостингу Llama або Mistral на орендованих H100, що є саме тим розрахунком «будувати чи купувати», який проводять багато команд із фінтеху та iGaming-платформ. Наступні 90 днів для цих команд мають включати перерахунок юніт-економіки зі сценарієм зниження ціни на інференс на 30 відсотків — не як прогнозом, а як сценарієм.
Дорожня карта для розробки AI
Для технічних лідерів, що роблять інфраструктурні ставки в наступні два квартали, є кілька конкретних дій. По-перше, не перепроектовуйте нічого під Jalapeño прямо зараз. Немає публічного SDK, немає документації на рівні ядер і не оголошено жодного шляху доступу для третіх сторін. Чип призначений для власного флоту обслуговування OpenAI через центри обробки даних Microsoft у своєму першому поколінні. Якщо ви є споживачем API, ви побачите Jalapeño як меншу затримку і можливо нижчу ціну, а не як нову ціль для компіляції.
По-друге, створіть абстракцію між рівнем застосунку та постачальником моделей. Оголошення Jalapeño є сигналом того, що передові лабораторії продовжуватимуть забирати більше стеку всередину, що означає погіршення ризику прив'язки до постачальника, а не покращення. Маршрутизуйте через MCP або аналогічний протокольний рівень, щоб заміна постачальника у 2027 році була змінюванням конфігурації, а не переписуванням коду.
По-третє, сприймайте серйозно заяву про дев'ятимісячний тейп-аут як вхідні дані для планування, навіть якщо ви дисконтуєте її вдвічі. Якщо передові лабораторії можуть ітерувати кастомний кремній у цикл менше двох років, використовуючи власні моделі для прискорення розробки, крива вартості інференсу стає крутішою, ніж передбачає поточне планування. Бюджети, побудовані на пласких цінах за токен для 2027 і 2028 років, напевно, є неправильними — на користь замовника. Плануйте під ємність, а не під вартість.
Ключові висновки
- Jalapeño є першим інференс-чипом OpenAI, виготовленим за дев'ять місяців разом із Broadcom, що заявляється як найшвидший цикл ASIC у передових напівпровідниках, із запланованим початковим розгортанням до кінця 2026 року.
- Платформа використовує мережевий кремній Tomahawk від Broadcom і промислово оснащується разом із Celestica, а Microsoft є першим партнером із розгортання гігаватного масштабу.
- Інженерні зразки вже виконують навантаження GPT-5.3-Codex-Spark на виробничій цільовій частоті та потужності, але технологічний вузол, конфігурація пам'яті та показники утилізації не були розкриті.
- Конкурентний радіус ураження є найбільшим для стартапів із комерційними інференс-ASIC і для інференс-доходів Nvidia (не навчання) в одного конкретного клієнта.
- Споживачі API повинні очікувати нижчих цін на інференс у 2027 році та вже зараз мають ізолювати свій стек від специфічної поведінки постачальника.
Часті запитання
Q: Що таке чип Jalapeño від OpenAI?
Jalapeño є першим Intelligence Processor від OpenAI — LLM-оптимізованим інференс-акселератором, розробленим спільно з Broadcom. Він спроектований із нуля для інференс-навантажень, а не адаптований із чипа AI загального призначення, і є першим продуктом у запланованій багатопоколінній обчислювальній платформі між двома компаніями.
Q: Коли буде розгорнуто Jalapeño?
OpenAI планує початкове розгортання до кінця 2026 року, з масштабуванням до гігаватного рівня в партнерських центрах обробки даних, включно з Microsoft, протягом кількох поколінь чипів. Інженерні зразки вже виконують ML-навантаження в лабораторії на виробничій цільовій частоті та потужності.
Q: Як Jalapeño порівнюється з GPU від Nvidia?
OpenAI стверджує, що раннє тестування демонструє суттєво кращу продуктивність на ват порівняно з поточними передовими акселераторами, але детальний технічний звіт ще не опублікований. Jalapeño є виключно інференс-рішенням і орієнтований на власний флот обслуговування OpenAI, тому у короткостроковій перспективі він не конкурує з Nvidia у навчанні чи на ширшому корпоративному ринку GPU.
Claude Tag в Slack: що потрібно знати інженерам
Anthropic випустив Claude Tag для Slack, замінивши старого чатбота на мультиплеєрного агента на базі Opus 4.8. Ось що це ламає і що виправляє.
Sakana Fugu як захист від прив'язки до одного LLM-постачальника
Sakana AI випустила Fugu — оркестраційну модель, що маршрутизує завдання між пулом провідних LLM. Перша реакція спільноти переважно скептична. Ось що витримує перевірку.
Залучення $25 млрд боргу Nvidia: розумна оптимізація чи сигнал бульбашки?
Nvidia залучає $25 млрд боргу, маючи $50 млрд готівки та $119 млрд річного вільного грошового потоку. Справжня історія — не в балансі, а в тому, чого тепер вимагає AI-інфраструктура.




