Sakana Fugu як захист від прив'язки до одного LLM-постачальника
Кожен керівник платформи, якому хоч раз довелося прокидатися через регіональний збій у постачальника, знає цей сценарій напам'ять: плани аварійного переключення виглядають чудово в документі Notion, але розсипаються щойно вгорі відкликають API-ключ. Сьогоднішній запуск Sakana AI цілить саме в цей біль. Пропозиція проста: один endpoint, безліч провідних моделей і роутер, який сам є мовною моделлю.
Прийом неоднозначний. З 12 публічних публікацій, переглянутих 22 червня, настрої розділилися так: 3 підтримуючі, 6 скептичних і 3 критичні, при цьому дві з трьох підтримуючих публікацій належать самій Sakana або її CEO. Це той контекст, крізь який варто читати все інше.
Що сталося
Sakana AI запустила Sakana Fugu — мультиагентну оркестраційну систему, яка з точки зору абонента поводиться як єдина модель. Як повідомляє MarkTechPost, Fugu сама є мовною моделлю, навченою викликати інші LLM, а пул агентів, яким вона керує, включає рекурсивні екземпляри себе самої. Вибір моделі, делегування, верифікація та синтез відбуваються всередині системи.
За одним OpenAI-сумісним API постачаються два варіанти. Стандартний Fugu балансує між продуктивністю і затримкою для повсякденного кодування, рецензування коду та роботи чат-бота, вбудовується в інструменти на кшталт Codex і дозволяє користувачам вимикати окремих агентів із пулу з міркувань відповідності вимогам. Fugu Ultra жертвує гнучкістю заради якості на складних багатоетапних завданнях, координує глибший пул експертів і працює з фіксованим складом без можливості відмови. Поточний ідентифікатор моделі: fugu-ultra-20260615.
Sakana явно позиціонує запуск як захист від залежності від єдиного постачальника, посилаючись на нещодавні експортні обмеження щодо моделей Fable та Mythos від Anthropic як на мотивацію. Пул Fugu не включає Fable 5 або Mythos Preview, оскільки ці моделі не є публічно доступними. У бенчмарках Fugu посідає перше місце в 10 із 11 рядків. Fugu Ultra лідирує в чотирьох бенчмарках з кодування, CharXiv Reasoning і Humanity's Last Exam. Стандартний Fugu лідирує в SciCode, τ³ Banking і Long Context Reasoning. GPT 5.5 перемагає у MRCRv2 — єдина перемога базових моделей. SWE Bench Pro використовує mini-swe-agent як scaffolding.
Бета-версія пройшла з близько 500 ранніми користувачами. Гілка на Hacker News набрала 50 балів. VentureBeat і Clanker Cloud обидва опублікували матеріали.
Технічна анатомія
Цікаве інженерне твердження полягає в тому, що оркестратор перевершує окремі моделі, якими він координує. Це більше, ніж "ми побудували роутер." Воно спирається на дві статті ICLR 2026: Trinity і Conductor. Trinity використовує легкий еволюційний координатор упродовж кількох ходів, призначаючи ролі Thinker, Worker або Verifier для адаптивного делегування. Conductor навчений за допомогою навчання з підкріпленням відкривати стратегії координації природною мовою та сфокусовані підказки для різноманітних пулів LLM. Загальна ідея: можна навчитися збирати агентів під конкретне завдання, а не прописувати робочий процес вручну.
З точки зору споживача API, поверхня навмисно нудна. Вона OpenAI-сумісна, тому міграція SDK не потрібна. Ви спрямовуєте існуючий клієнт на endpoint, наданий консоллю за адресою console.sakana.ai, встановлюєте модель як fugu або fugu-ultra-20260615 і зчитуєте використання токенів і вартість із кожної відповіді.
Прихованою залишається логіка маршрутизації. Sakana прямо заявляє, що вибір моделі для кожного запиту залишається власницьким. Це єдине архітектурне рішення є несучою стіною всього продукту. Воно ж має нервувати офіцерів з відповідності у регульованих галузях. Якщо ви не можете перевірити, яка модель обробляла конкретний запит, ви не зможете відповісти на запитання, яке ваш офіцер із захисту даних поставить на другому тижні.
Опубліковані сценарії використання орієнтовані на тривалу роботу. AutoResearch провів 123 експерименти приблизно за 14 годин на одному H100, щоб автономно покращити навчальний рецепт невеликого GPT, досягнувши найкращого середнього BPB валідації 0,9774 та найкращого одиночного запуску 0,9748. Завдання зі складанням кубика Рубіка на чистому Python: Fugu Ultra розв'язав усі 300 відкладених кубиків із середнім показником 19,72 ходи — проти одного базового рішення з результатом 19,76 та двох, що впали на нулі. На класичному японському листі кана з 1610 знаків Fugu Ultra набрав NED 0,80 проти найближчої базової моделі з 0,24. Шахи наосліп: чотири партії з пам'яті — перемога над трьома провідними моделями та Stockfish з рейтингом 2100 Elo. Тест онлайн-торгівлі в одному вікні повернув середній результат +19,43% за п'ять запусків, тоді як конкуренти залишалися нижче +15%, з застереженням Sakana, що минулі результати не гарантують майбутніх.
Незручне прочитання: кожен сценарій використання — це вітрина в обмеженій предметній галузі, а торговий показник отримано в одному вікні тривалістю 50 тижнів. Я бачив достатньо бектестів у фінтеху, щоб знати: це гіпотеза, а не результат.
Хто постраждає
Цього кварталу варто звернути увагу трьом групам.
По-перше, стартапи в сфері AI-інфраструктури, чия вся пропозиція зводиться до "ми маршрутизуємо між OpenAI, Anthropic і Google для вас." Fugu — прямий конкурент із дослідницькими регаліями, OpenAI-сумісним API і перемогами в бенчмарках у 10 із 11 опублікованих рядків. Якщо ваш шар маршрутизації — це евристика за затримкою і ціною, тепер ви конкуруєте з чимось, що навчилося координувати. Команди, з якими я працював в оркестраційному просторі, вже відчували цінове навантаження. Цей запуск піднімає планку того, що вважається "базовим мінімумом."
По-друге, платформені команди у фінтеху та операторів iGaming із суворими вимогами до ізоляції постачальників. Стандартний Fugu дозволяє відмовитися від конкретних агентів. Fugu Ultra — ні. Якщо ваш регулятор хоче знати, який постачальник обробив взаємодію з клієнтом, "власницька маршрутизація" — не відповідь, яка переживе аудит. Варіант Ultra фактично недоступний для всіх, хто має зобов'язання щодо атестації моделей, поки це не зміниться.
По-третє, компанії, що використовують одного постачальника і спостерігали за експортними обмеженнями щодо Fable і Mythos від Anthropic із байдужістю. Мотивація, на яку посилається Sakana, — та сама, яку виробничі інциденти за останнє десятиліття знову і знову підтверджують: будь-який постачальник може стати недоступним у вашому регіоні без попередження. Якщо ваш план дій для сценарію "Anthropic заблокований у нашому регіоні завтра" — це "ми перейдемо на OpenAI за кілька спринтів," ви на відстані одного регуляторного заголовка від дуже поганого тижня.
Моя думка: реальна цінність тут не у таблиці бенчмарків, а в ставці на те, що шар оркестрації стане товарною API-поверхнею. Якщо це збудеться, переможцями стануть ті покупці, які вже зараз пишуть код, незалежний від постачальника, а тими, хто програє, — всі, чий продукт є тонкою обгорткою над одним провідним вендором.
Практичний план для AI-розробки
Дії на цей тиждень у порядку зростання зусиль.
Проведіть аудит прямої прив'язки до постачальника. Знайдіть у коді openai, anthropic і виклики SDK конкретних постачальників поза вашим шаром абстракції. Якщо знайдете більше ніж кілька, вартість міграції вища, ніж думає ваш CTO. Шаблон OpenAI-сумісного API, задокументований на platform.openai.com, є де-факто стандартним інтерфейсом. Пишіть саме під нього.
Запустіть стандартний Fugu на вашому існуючому тестовому стенді на непродуктивному навантаженні, перш ніж розглядати Ultra. Функція відмови від агентів у стандартній версії — це варіант, який команди з вимогами відповідності можуть фактично розгорнути. Ultra цікавий для досліджень і офлайн-пакетної роботи, де атрибуція не має значення.
Якщо ви працюєте в юрисдикції, порушеній нещодавніми експортними обмеженнями, запишіть сценарії відмови єдиного постачальника цього тижня. Не наступного кварталу. Включіть відкликання API-ключа, регіональне блокування та цінові шоки. Для кожного — визначте часові рамки відновлення. Якщо хоча б одна відповідь перевищує 72 години, шар оркестрації якогось виду тепер є частиною вашої дорожньої карти — чи то Fugu, чи то щось побудоване на відкритих вагах.
Нарешті, не сприймайте показники торгівлі чи AutoResearch як доказ для закупівель. Одне вікно тривалістю 50 тижнів і один 14-годинний запуск на H100 — це цікаві демонстрації. Вони не є доказовою базою для прийняття рішень. Таблиця бенчмарків — більш надійна основа, але опубліковані вендором базові показники залишаються опублікованими вендором базовими показниками.
Ключові висновки
- Sakana Fugu постачається в двох варіантах за одним OpenAI-сумісним API: стандартний Fugu дозволяє відмовитися від агентів, а Fugu Ultra працює з фіксованим пулом, налаштованим для складних завдань.
- Оркестратор перевершує моделі-компоненти у 10 із 11 опублікованих рядків бенчмарків, при цьому GPT 5.5 перемагає лише у MRCRv2.
- Маршрутизація є власницькою — це неприйнятно для команд з вимогами до атестації моделей або аудиту при використанні Fugu Ultra.
- Sakana посилається на експортні обмеження щодо Fable і Mythos від Anthropic як на мотивацію; ці моделі відсутні у пулі Fugu, оскільки вони не є публічно доступними.
- Рання реакція спільноти: з 12 публікацій 3 підтримуючі (2 з яких пов'язані з Sakana), 6 скептичних і 3 критичні; домінуюче питання — чи є це чимось суттєво більшим, ніж просто роутер.
Часті запитання
Q: Що таке Sakana Fugu і чим він відрізняється від стандартного LLM-роутера?
Fugu сам є мовною моделлю, навченою викликати інші LLM, а не роутером на основі правил. Він керує вибором моделі, делегуванням, верифікацією та синтезом внутрішньо, а його пул включає рекурсивні екземпляри себе самого. Він надає один OpenAI-сумісний endpoint, координуючи команду експертних моделей за лаштунками.
Q: Чи можуть регульовані команди використовувати Fugu Ultra у продакшні?
Мабуть, ні — без змін. Fugu Ultra працює з фіксованим пулом агентів без можливості відмови, а маршрутизація є власницькою, тому вибір моделі для кожного запиту залишається прихованим. Стандартний Fugu дозволяє виключати окремих агентів із пулу — саме цей варіант командам із вимогами до відповідності варто оцінювати в першу чергу.
Q: Чи заслуговують бенчмаркові перемоги на довіру?
Таблиця бенчмарків показує найвищі результати у 10 із 11 рядків відносно базових моделей, якими координує Fugu, при цьому SWE Bench Pro використовує mini-swe-agent як scaffolding. Базові показники надані постачальниками — це нормально, але варто це зазначити. Результат торгівлі в одному вікні та 14-годинний запуск AutoResearch є демонстраціями, а не доказовою базою для прийняття рішень про закупівлю.
Claude Tag в Slack: що потрібно знати інженерам
Anthropic випустив Claude Tag для Slack, замінивши старого чатбота на мультиплеєрного агента на базі Opus 4.8. Ось що це ламає і що виправляє.
Залучення $25 млрд боргу Nvidia: розумна оптимізація чи сигнал бульбашки?
Nvidia залучає $25 млрд боргу, маючи $50 млрд готівки та $119 млрд річного вільного грошового потоку. Справжня історія — не в балансі, а в тому, чого тепер вимагає AI-інфраструктура.
Microsoft Відкриває Інструменти Безпеки Агентів: Що Робити CTO Зараз
Microsoft відкрила код інструментів безпеки для розробки агентів. Головне питання для платформних лідерів: це прив'язує вас чи дає вам свободу маневру?




