Skip to content
RiverCore
Sakana Fugu: защита от привязки к единственному LLM-провайдеру
LLM vendor lock-inSakana AImodel routingSakana Fugu orchestration model reviewavoid LLM vendor dependency

Sakana Fugu: защита от привязки к единственному LLM-провайдеру

23 июн 20267 мин. чтенияAlex Drover

Каждый технический руководитель, которого хоть раз будил региональный сбой стороннего провайдера, знает этот сценарий: план переключения выглядит отлично в Notion-документе, а потом рассыпается при первом отзыве ключа API. Сегодняшний запуск Sakana AI бьёт именно по этой боли. Идея — один endpoint, множество frontier-моделей и роутер, который сам является языковой моделью.

Реакция неоднозначная. Из 12 публичных публикаций, проанализированных 22 июня, мнения разделились: 3 положительных, 6 скептических и 3 критических, причём двое из трёх авторов положительных постов — сама Sakana или её CEO. Именно через эту призму стоит читать всё остальное.

Что произошло

Sakana AI запустила Sakana Fugu — мультиагентную систему оркестрации, которая с точки зрения вызывающего кода ведёт себя как единая модель. Как сообщает MarkTechPost, Fugu сама является языковой моделью, обученной вызывать другие LLM, а управляемый ею пул агентов включает рекурсивные экземпляры её самой. Выбор модели, делегирование, верификация и синтез происходят внутри системы.

Два варианта работают за единым OpenAI-совместимым API. Стандартный Fugu балансирует производительность и задержку для повседневных задач: написание кода, code review и чат-боты, встраивается в инструменты типа Codex и позволяет исключать отдельных агентов из пула по соображениям комплаенса. Fugu Ultra жертвует гибкостью ради качества при сложных многошаговых задачах, координирует более глубокий пул экспертов и работает на фиксированном составе без возможности отключения. Текущий идентификатор модели: fugu-ultra-20260615.

Sakana явно позиционирует запуск как защиту от зависимости от единственного вендора, ссылаясь на недавние экспортные ограничения на модели Anthropic Fable и Mythos. Пул Fugu не включает Fable 5 и Mythos Preview, поскольку эти модели недоступны публично. В бенчмарках Fugu занимает первое место в 10 из 11 строк. Fugu Ultra лидирует в четырёх бенчмарках по программированию, CharXiv Reasoning и Humanity's Last Exam. Стандартный Fugu лидирует в SciCode, τ³ Banking и Long Context Reasoning. GPT 5.5 побеждает в MRCRv2 — единственной победе базовых моделей. SWE Bench Pro использует mini-swe-agent в качестве scaffolding.

Бета-тест прошёл с участием около 500 ранних пользователей. Тред на Hacker News набрал 50 очков. VentureBeat и Clanker Cloud опубликовали свои материалы.

Техническое устройство

Ключевое инженерное утверждение — оркестратор превосходит отдельные модели, которыми управляет. Это более весомое заявление, чем «мы построили роутер». Оно опирается на две статьи ICLR 2026: Trinity и Conductor. Trinity использует облегчённый эволюционировавший координатор на протяжении нескольких ходов, назначая роли Мыслителя, Исполнителя или Верификатора для адаптивного делегирования. Conductor обучается с помощью обучения с подкреплением для поиска стратегий координации на естественном языке и целевых промптов для разнородных пулов LLM. Общая идея: можно научиться собирать агентов под каждую задачу, не кодируя рабочий процесс вручную.

С точки зрения потребителя API поверхность намеренно скучная. Совместимость с OpenAI означает отсутствие миграции SDK. Вы направляете существующий клиент на endpoint из консоли на console.sakana.ai, устанавливаете модель fugu или fugu-ultra-20260615 и считываете использование токенов и стоимость из каждого ответа.

Скрыта логика маршрутизации. Sakana прямо заявляет, что выбор модели для каждого запроса остаётся проприетарным. Именно это единственное конструктивное решение является несущей стеной всего продукта. Оно же должно беспокоить специалистов по комплаенсу в регулируемых отраслях. Если вы не можете проверить, какая модель обработала конкретный промпт, вы не сможете ответить на вопрос, который ваш офицер по защите данных задаст на второй неделе.

Опубликованные примеры использования ориентированы на долгосрочные задачи. AutoResearch провёл 123 эксперимента примерно за 14 часов на одном H100, автономно улучшая рецепт обучения небольшой GPT, достигнув лучшего среднего значения BPB на валидации 0,9774 и лучшего результата за один прогон 0,9748. Задача по решению кубика Рубика на чистом Python: Fugu Ultra решил все 300 тестовых кубиков со средним числом ходов 19,72, против одного базового решения, показавшего 19,76, и двух, упавших с нулём. На японском тексте из 1610 символов кана классического периода Fugu Ultra показал NED 0,80 против 0,24 у ближайшего базового решения. Шахматы вслепую: четыре партии по памяти, с победой над тремя frontier-моделями и движком Stockfish с рейтингом 2100 Эло. Тест онлайн-трейдинга в одном окне дал средний результат +19,43% за пять прогонов, тогда как конкуренты не поднялись выше +15%; Sakana оговаривается, что прошлые результаты не гарантируют будущих.

Неудобный вывод: каждый кейс — это демонстрация на ограниченном домене, а торговый результат получен в одном 50-недельном окне. Я видел достаточно бэктестов в финтехе, чтобы понимать: это гипотеза, а не результат.

Кого это затрагивает

В этом квартале на три группы стоит обратить особое внимание.

Первая — стартапы в сфере AI-инфраструктуры, чей весь питч сводится к «мы маршрутизируем между OpenAI, Anthropic и Google за вас». Fugu — прямой конкурент с исследовательскими регалиями, OpenAI-совместимым API и победами в бенчмарках по 10 из 11 опубликованных строк. Если ваш слой маршрутизации — это эвристика по задержке и цене, теперь вы конкурируете с тем, что обучилось координировать. Команды, с которыми я работал в пространстве оркестрации, уже ощущали ценовое давление. Этот запуск повышает планку базовых требований.

Вторая — платформенные команды финтех- и iGaming-операторов со строгими требованиями к изоляции вендоров. Стандартный Fugu позволяет отключать конкретных агентов. Fugu Ultra — нет. Если регулятор хочет знать, какой провайдер обработал взаимодействие с клиентом, «проприетарная маршрутизация» — не ответ, который выдержит аудит. Ultra фактически недоступен для всех, кто несёт обязательства по аттестации моделей, пока ситуация не изменится.

Третья — команды, работающие с единственным вендором, которые посмотрели на экспортные ограничения в отношении Fable и Mythos и пожали плечами. Мотивация, на которую ссылается Sakana, — та же, что снова и снова подтверждают производственные инциденты за последнее десятилетие: любой провайдер может стать недоступным в вашей юрисдикции без предупреждения. Если ваш план действий на случай «Anthropic заблокирован в нашем регионе завтра» — «мы переедем на OpenAI за несколько спринтов», вы в одном регуляторном заголовке от очень плохой недели.

Моя оценка: реальная ценность здесь не в таблице бенчмарков, а в ставке на то, что слой оркестрации становится товарной API-поверхностью. Если это так, победители — те, кто пишет провайдеро-независимый код уже сейчас, а проигравшие — все, чей продукт является тонкой обёрткой над одним frontier-вендором.

Практические действия для AI-разработки

Действия на эту неделю, в порядке возрастания усилий.

Проверьте прямую связанность с провайдером. Ищите grep'ом openai, anthropic и специфичные для провайдера SDK-вызовы за пределами вашего слоя абстракции. Если найдёте больше нескольких штук, стоимость миграции выше, чем думает ваш CTO. OpenAI-совместимый API, задокументированный на platform.openai.com, сейчас является де-факто интерфейсом. Пишите под него.

Прогоните стандартный Fugu на существующем eval-наборе на нерабочей нагрузке, прежде чем рассматривать Ultra. Функция отключения агентов в стандартном варианте — это и есть версия, которую команда с требованиями комплаенса может реально развернуть. Ultra интересен для исследований и офлайн-пакетных задач, где атрибуция не важна.

Если вы работаете в юрисдикции, затронутой недавними экспортными ограничениями, запишите сценарии отказа при работе с единственным вендором на этой неделе. Не в следующем квартале. Включите отзыв API-ключа, региональную блокировку и ценовой шок. Для каждого случая ограничьте время восстановления. Если хоть один ответ превышает 72 часа, слой оркестрации какого-либо вида теперь является частью вашей дорожной карты — будь то Fugu или что-то, что вы строите на открытых весах.

Наконец, не используйте цифры по трейдингу или AutoResearch как доказательство при закупках. Одно 50-недельное окно и один 14-часовой прогон на H100 — интересные демо. Это не послужной список. Таблица бенчмарков — более твёрдая почва, но опубликованные вендором базовые показатели остаются опубликованными вендором базовыми показателями.

Ключевые выводы

  • Sakana Fugu поставляется в двух вариантах за единым OpenAI-совместимым API: стандартный Fugu позволяет отключать агентов, Fugu Ultra работает на фиксированном пуле, заточенном под сложные задачи.
  • Оркестратор превосходит составляющие его модели в 10 из 11 опубликованных строк бенчмарков; GPT 5.5 побеждает только в MRCRv2.
  • Маршрутизация является проприетарной, что делает её неприемлемой для команд с требованиями аттестации моделей или аудита при использовании Fugu Ultra.
  • Sakana ссылается на экспортные ограничения в отношении Fable и Mythos от Anthropic как на мотивацию; эти модели отсутствуют в пуле Fugu, так как не находятся в открытом доступе.
  • Раннее сообщество из 12 публикаций разделилось на 3 положительных (2 из них аффилированы с Sakana), 6 скептических и 3 критических; главный вопрос — является ли это чем-то большим, чем просто роутер.

Часто задаваемые вопросы

В: Что такое Sakana Fugu и чем он отличается от стандартного LLM-роутера?

Fugu сам является языковой моделью, обученной вызывать другие LLM, а не роутером на основе правил. Он управляет выбором модели, делегированием, верификацией и синтезом внутренне, а его пул включает рекурсивные экземпляры его самого. Снаружи он предоставляет один OpenAI-совместимый endpoint, координируя команду экспертных моделей за кулисами.

В: Могут ли регулируемые команды использовать Fugu Ultra в продакшне?

Вероятно, нет — без изменений. Fugu Ultra работает на фиксированном пуле агентов без возможности отключения, а маршрутизация является проприетарной, так что выбор модели для каждого запроса остаётся скрытым. Стандартный Fugu позволяет исключать конкретных агентов из пула — именно этот вариант следует рассмотреть командам с требованиями комплаенса в первую очередь.

В: Заслуживают ли доверия победы в бенчмарках?

Таблица бенчмарков показывает лучшие результаты в 10 из 11 строк по сравнению с foundation-моделями, которые координирует Fugu; SWE Bench Pro использует mini-swe-agent в качестве scaffolding. Базовые показатели публикует провайдер — это нормально, но стоит иметь в виду. Результат по трейдингу в одном окне и прогон AutoResearch за 14 часов — это демо, а не доказательства уровня закупок.

AD
Alex Drover
RiverCore Analyst · Dublin, Ireland
ПОДЕЛИТЬСЯ
// RELATED ARTICLES
ГлавнаяРешенияПроектыО насКонтакт
Новости06
Дублин, Ирландия · ЕСGMT+1
LinkedIn
🇷🇺RU