long-context inferenceSubquadratic AIcontext windowsubquadratic 12 million token context windowcheap long-context AI inference startup

Subquadratic запускается с $29 млн и контекстным окном в 12 млн токенов

6 май 20268 мин. чтенияJames O'Brien

// В ЭТОЙ СТАТЬЕ

01Что произошло 02Техническая анатомия 03Кто пострадает 04Тактика для разработчиков 05Ключевые выводы 06Часто задаваемые вопросы

Представьте автомагистраль, построенную в 1960-х: три полосы в каждую сторону, великолепно спроектированную под трафик своего времени. А теперь представьте, что в 8 утра во вторник на неё пытаются выехать все водители страны одновременно. Именно так выглядит история трансформера последних нескольких лет: блестящая дорога, которая просто не успевает расширяться под постоянно растущий поток машин. Стартап Subquadratic, вышедший из стелса на этой неделе, утверждает, что нашёл способ добавить ещё десять полос — без единого кубометра нового бетона.

Что произошло

5 мая 2026 года стартап Subquadratic вышел из стелса с посевным финансированием в $29 миллионов и LLM под названием SubQ, как сообщил SiliconANGLE. Главная цифра, от которой перехватывает дыхание: контекстное окно до 12 миллионов токенов — примерно 9 миллионов слов, или около 120 книг, загруженных в один промпт.

Для сравнения: отраслевой стандарт для большинства production-моделей составляет 128 000 токенов, а даже ведущие облачные предложения — Claude Sonnet 4.7 и Gemini 3.1 Pro — не превышают около 1 миллиона. Subquadratic заявляет о 12-кратном увеличении потолка, причём за меньшие деньги.

Компанию возглавляют CEO Джастин Дангел и CTO Александр Уидон. Их архитектура — проприетарный вариант трансформера, построенный на основе sparse attention вместо плотного (dense) внимания, которое определяло направление развития отрасли с 2017 года. Заявленные показатели производительности весьма агрессивны: более чем в 50 раз быстрее и в 50 раз дешевле ведущих фронтирных моделей при 1 миллионе токенов, при этом с более высокой точностью. При полном контексте в 12 миллионов токенов Subquadratic утверждает, что SubQ снижает вычислительные затраты почти в 1000 раз по сравнению с фронтирными моделями.

Цифра из бенчмарка — именно та, которую будут скриншотить в групповых чатах на этой неделе. На RULER 128K, тесте для оценки работы с длинным контекстом, SubQ набрал 95% точности при стоимости $8. Claude Opus набрал 94% при затратах около $2 600. Это примерно 300-кратное снижение стоимости при выигрыше в один процентный пункт точности.

Одновременно с моделью запускаются три продукта: SubQ API для разработчиков и корпоративных команд, SubQ Code (CLI-агент для написания кода, загружающий целые кодовые базы в единый контекст), и поисковый продукт, который изначально будет бесплатным. В ближайшей перспективе модель не будет open-weight или open-source, однако Дангел говорит, что её можно будет дообучать под конкретные клиентские задачи. Среди инвесторов — Хавьер Вильямисар (бывший сотрудник SoftBank Vision Fund), Джастин Матин (сооснователь Tinder, JAM fund), а также ранние инвесторы в Anthropic, OpenAI, Stripe и Brex.

Техническая анатомия

Весь питч держится на одной математической закономерности, которую любой, кто хоть раз профилировал задачу инференса с длинным контекстом в два часа ночи, знает в деталях. Dense attention сравнивает каждый токен с каждым другим токеном. Удвойте входные данные — и объём работы не удвоится, а учетверится. Это и есть квадратичная магистраль, именно поэтому ваш промпт за $20 превращается в $80, как только вы вставляете второй PDF.

«Если удвоить размер входных данных при квадратичных законах масштабирования, потребуется в четыре раза больше вычислений; при линейных — всего в два раза больше», — рассказал Уидон SiliconANGLE. Это единственное предложение и есть весь коммерческий тезис.

Sparse attention, в трактовке Дангела, — это «попытка понять, как не сравнивать каждый токен с каждым токеном с каждым токеном». Скучная часть, которую компания не раскрывает, — это именно то, какие токены сравниваются, а какие пропускаются. Это и есть секретный ингредиент, и именно поэтому модель не является open-weight. Sparse attention — не новая идея на доске. Longformer, BigBird, гибриды в стиле Mamba на пространстве состояний и десятки академических статей уже пробовали это. Сложная часть всегда состояла в том, чтобы сохранить точность, когда вы перестаёте сравнивать всё со всем.

Если результаты RULER 128K выдержат независимое тестирование — вот что действительно важно в этой истории. Результат 95% за $8 против 94% за $2 600 — это не просто дешевле, это меняет то, какие продукты становятся экономически возможными. Вычислительный бюджет, как выражается Subquadratic, перестаёт быть ограничивающим фактором.

Ещё один технический нюанс, заслуживающий внимания: жалоба Уидона на ручное курирование промптов. «Раньше мне приходилось вручную курировать промпты, системы поиска, оценки и условную логику, чтобы выстраивать цепочки рабочих процессов», — сказал он, назвав это «расточительством человеческого интеллекта и одновременно ограничением качества продукта». Перевод: если ваше контекстное окно действительно составляет 12 миллионов токенов и инференс дёшев, вам не нужен RAG. Вам не нужен агентный pipeline поиска. Вы просто загружаете всё целиком. Это очень серьёзное утверждение, и именно здесь всё может рухнуть, если точность деградирует при увеличении длины.

Кто пострадает

Самые очевидные проигравшие, если SubQ выполнит обещания, — это RAG-вендоры. Целая экосистема векторных баз данных, стратегий чанкинга, гибридных систем поиска и ре-ранкеров существует именно потому, что dense attention слишком дорог при масштабировании. Pinecone, Weaviate, стек поиска LangChain, полдюжины консалтинговых компаний, выставляющих шестизначные счета за настройку embedding-пайплайнов — все они продают решения проблемы, которая становится меньше каждый раз, когда кто-то расширяет магистраль. Они не исчезнут за 90 дней, но стратегический вопрос на каждом борд-деке только что стал сложнее.

Фронтирные лаборатории сталкиваются с другим давлением. Anthropic и Google выстроили премиальные ценовые тиры вокруг возможности работы с длинным контекстом. Если стартап на посевном раунде может убедительно заявить о 300-кратном снижении стоимости инференса при 128K, ценовая власть на тирах с миллионом токенов сжимается снизу. Я бы сказал, что Anthropic в этом смысле теряет больше всех, учитывая, насколько сильно корпоративный питч Claude опирается на анализ длинных документов.

Инструменты для написания кода — ещё одна категория под ударом. Питч SubQ Code — загрузка целых кодовых баз в единый контекст. Cursor, Devin от Cognition, инструменты из экосистемы GitHub Copilot Workspace — все они потратили восемнадцать месяцев на создание сложных агентных workflows, чтобы компенсировать ограничения контекста. Если SubQ Code работает при заявленных задержках, слой оркестрации агентов превращается из функции в костыль.

Для вертикалей, близких к читателю RiverCore: команды по compliance в финтехе, проводящие документарный ревью в масштабе; iGaming-платформы, анализирующие логи транзакций для обнаружения мошенничества; ad-tech-компании, обрабатывающие данные рекламных кампаний — все они годами писали хрупкую логику чанкинга. В ближайшие 90 дней этим командам стоит прогнать SubQ API на своих самых сложных внутренних бенчмарках. Не маркетинговых. Тех, которые сломались в прошлом квартале.

Тактика для разработчиков

Три конкретных шага для технических лидов на этой неделе.

Первое: встаньте в очередь на SubQ API и проведите собственные оценки. Бенчмарки вендора — это бенчмарки вендора. RULER 128K — достойный тест, но это не ваш production-трафик. Возьмите самые сложные запросы прошлого месяца — те, где ваш текущий RAG-пайплайн возвращал мусор — и посмотрите, что произойдёт, если перестать курировать и начать загружать всё целиком. Выделите две инженерные недели на честную оценку.

Второе: проведите аудит вашего стека поиска с прицелом на выход. Не потому что вы демонтируете его завтра. А потому что архитектурное допущение об обязательном существовании retrieval теперь оспоримо. Определите, какие части вашего пайплайна существуют из-за стоимости, какие — из-за задержки, а какие — из-за реальных потребностей информационной архитектуры (цитирование, контроль доступа, актуальность данных). Первые две категории теперь подлежат пересмотру.

Третье: следите за вопросом привязки к вендору. SubQ не является open-weight и не планирует таковым становиться. Если вы строите продукт вокруг контекста в 12 миллионов токенов, вы делаете ставку на роадмап, ценообразование и время работы единственного вендора. Это привычная сделка для тех, кто использует платформу OpenAI, но стоит честно обозначить это на архитектурном ревью. Намёк на возможность дообучения под клиентские задачи говорит о том, что Subquadratic понимает корпоративные закупки — но понимать и делать это доступным по цене — разные вещи.

Для скептиков: допустите, что бенчмарки немного приукрашены, что точность деградирует на длинном хвосте окна в 12 миллионов токенов, и спросите себя: является ли 1 миллион токенов при 50-кратном снижении стоимости всё ещё результатом, меняющим бизнес? Мой ответ: да, однозначно.

Ключевые выводы

Subquadratic вышла из стелса 5 мая 2026 года с посевным финансированием $29 млн и LLM (SubQ), поддерживающим до 12 миллионов токенов, при отраслевом стандарте 128K и фронтирном потолке около 1 миллиона.
Архитектура — проприетарный трансформер со sparse attention, переходящий от квадратичного к линейному масштабированию. Удвоение входных данных удваивает вычисления, а не учетверяет их.
Главный бенчмарк: 95% на RULER 128K за $8 против Claude Opus с 94% за около $2 600. Примерно 300-кратное снижение стоимости, если результаты подтвердятся в независимом тестировании.
RAG-вендоры, инструменты оркестрации агентов и ценовые тиры фронтирных лабораторий для длинного контекста подвергаются наибольшим рискам, если SubQ выйдет с заявленным качеством.
Техническим лидам следует провести собственные оценки в этом месяце, выяснить, какие компоненты retrieval существуют исключительно из-за стоимости, и взвесить привязку к единственному вендору против экономических выгод.

Возвращаясь к магистрали. Каждые несколько десятилетий кто-то расширяет дорогу — и все обнаруживают, что проблема была никогда не в трафике, а в самой дороге. Дангел выразился торжественнее: «Фундаментальные законы масштабирования, навязанные архитектурой трансформера и dense attention, были преодолены». Это громкое заявление от компании, которая прожила в публичном пространстве всего пять часов. Но если даже половина из этого выдержит столкновение с production-нагрузками, полос стало значительно больше — а множество тщательно выстроенных обходных решений вдруг стали выглядеть как дорожные конусы посреди пустой трассы.

Часто задаваемые вопросы

В: Чем модель SubQ от Subquadratic отличается от Claude или Gemini?

SubQ использует проприетарную архитектуру трансформера со sparse attention вместо dense attention, которая масштабируется линейно, а не квадратично относительно размера входных данных. Это позволяет поддерживать контекстное окно до 12 миллионов токенов — против около 1 миллиона у Claude Sonnet 4.7 и Gemini 3.1 Pro — при этом существенно снижая стоимость и задержку при работе с длинным контекстом.

В: Насколько достоверно заявление о 300-кратном снижении стоимости по сравнению с Claude Opus?

Оно основано на собственных результатах Subquadratic на бенчмарке RULER 128K: 95% точности за $8 против 94% примерно за $2 600 у Claude Opus. RULER — уважаемый бенчмарк для длинного контекста, однако до тех пор, пока независимые третьи стороны не воспроизведут результат на разнообразных задачах, относитесь к этой цифре как к сильному сигналу, а не к установленному факту.

В: Убивает ли это RAG и векторные базы данных?

Не немедленно, но это подрывает ключевой экономический аргумент. Retrieval-augmented generation существует во многом потому, что dense attention слишком дорог при масштабировании. Если инференс с длинным контекстом станет в 50–300 раз дешевле, многие сценарии, для которых RAG был нужен из соображений стоимости, смогут просто загружать полные документы или кодовые базы. Сценарии, где RAG нужен для цитирования, контроля доступа или актуальности данных, пострадают меньше.

James O'Brien

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Microsoft планирует удвоить мощности ИИ к 2028 году

Microsoft добавила гигаватт мощности за один квартал и планирует удвоить инфраструктуру ИИ к 2028 году. Цифры капзатрат говорят сами за себя.

Moreh достигает показателей A100 на Tenstorrent без HBM-налога

Демо TT-Deploy от Moreh разделило prefill LLM на Tenstorrent Wormhole и оставило decode на GPU, достигнув показателей уровня DGX A100 без затрат на HBM.

История Claude Code, которую мы пока не можем проверить

Единственный доступный источник этой истории о Claude Code — страница верификации браузера без единого факта. Вот что само это отсутствие говорит покупателям ИИ-инструментов.