long-context inferenceSubquadratic AIcontext windowsubquadratic 12 million token context windowcheap long-context AI inference startup

Subquadratic виходить на ринок із $29M та контекстним вікном на 12M токенів

6 тра 20268 хв. читанняJames O'Brien

// У ЦІЙ СТАТТІ

01Що сталося 02Технічна анатомія 03Хто програє 04Стратегія для AI-розробки 05Ключові висновки 06Часті запитання

Уявіть шосе, збудоване у 1960-х: три смуги в кожен бік, чудово спроектоване для тогочасного трафіку. А тепер уявіть, що всі водії країни намагаються втиснутися на нього о 8 ранку у вівторок. Саме так виглядає ситуація з трансформером останніми роками: блискуча дорога, яка просто не може розширюватися достатньо швидко для автомобілів, що на неї напирають. Subquadratic, який вийшов зі стелс-режиму цього тижня, вважає, що знайшов спосіб додати десять нових смуг, не заливаючи жодного зайвого бетону.

Що сталося

5 травня 2026 року стартап Subquadratic вийшов зі стелс-режиму із $29 мільйонами посівного фінансування та LLM під назвою SubQ, як повідомляло SiliconANGLE. Головна цифра, яка змушує моргнути двічі: контекстне вікно до 12 мільйонів токенів — приблизно 9 мільйонів слів, або щось близько 120 книжок, завантажених в один промпт.

Для порівняння: галузевий стандарт для більшості виробничих моделей становить 128 000 токенів, і навіть провідні хмарні рішення на кшталт Claude Sonnet 4.7 та Gemini 3.1 Pro досягають максимуму близько 1 мільйона. Subquadratic заявляє про 12-кратний стрибок відносно стелі — і це дешевше.

Компанію очолюють CEO Джастін Данґел і CTO Александер Ведон. Їхня архітектура — власний варіант трансформера, побудований навколо sparse attention, на відміну від dense attention, яке визначало галузь із 2017 року. Заявлені показники продуктивності є агресивними: більш ніж у 50 разів швидше та у 50 разів дешевше, ніж у провідних frontier-моделей при 1 мільйоні токенів, і з вищою точністю. На повних 12 мільйонах токенів Subquadratic стверджує, що SubQ скорочує обчислення майже в 1 000 разів порівняно з frontier-моделями.

Цифра з бенчмарку — та, яку цього тижня розішлють у групових чатах. На RULER 128K, тесті для довгих контекстів, SubQ набрав 95% точності при вартості $8. Claude Opus набрав 94% приблизно за $2 600. Це зниження вартості приблизно у 300 разів при виграші в одну точку точності.

Разом із моделлю запускаються три продукти: SubQ API для розробників та корпоративних команд, SubQ Code (CLI-агент для кодування, що завантажує цілі кодові бази в єдиний контекст), та пошуковий продукт, який спочатку буде безкоштовним. Модель найближчим часом не буде open-weight або open-source, хоча Данґел каже, що її можна буде навчати під конкретні потреби клієнтів. Серед інвесторів — Хав'єр Вільямісар (колишній співробітник SoftBank Vision Fund), Джастін Матін (співзасновник Tinder, фонд JAM) та ранні інвестори в Anthropic, OpenAI, Stripe та Brex.

Технічна анатомія

Уся концепція тримається на одній математичній деталі, яку кожен, хто хоч раз профілював завдання з інференсу на довгих контекстах о 2 годині ночі, знає нутром. Dense attention порівнює кожен токен з кожним іншим токеном. Подвоїть вхідні дані — і ви не подвоїте обсяг роботи, а учетверите його. Це і є квадратичне шосе, і саме тому ваш промпт за $20 перетворюється на промпт за $80, щойно ви вставляєте другий PDF.

«Якщо ви подвоюєте розмір вхідних даних при квадратичному масштабуванні, вам потрібно в чотири рази більше обчислень; при лінійному масштабуванні — лише вдвічі», — сказав Ведон SiliconANGLE. Це одне речення і є всією комерційною тезою.

Sparse attention, у формулюванні Данґела, — це «спроба сказати: гей, давайте спробуємо розібратися, як не порівнювати кожен токен з кожним токеном з кожним токеном». Нудна частина, яку компанія не розкриває, — це саме те, які токени порівнюються, а які пропускаються. Це і є секретний інгредієнт, і саме тому модель не є open-weight. Sparse attention — не нова ідея на дошці. Longformer, BigBird, Mamba-подібні гібриди на основі просторових станів і десятки академічних статей вже пробували це. Складна частина завжди полягала в тому, щоб зберегти точність, коли ви перестаєте порівнювати все з усім.

Якщо результати RULER 128K витримають незалежне тестування — ось та частина історії, яка справді важлива. Показник 95% за $8 проти 94% за $2 600 — це не просто дешевше, це змінює те, які продукти є економічно можливими. Обчислювальний бюджет, як називає це Subquadratic, перестає бути обмежувальним чинником.

Ще одна технічна деталь, на яку варто звернути увагу: скарга Ведона на ручне формування промптів. «Я раніше вручну формував промпти, системи пошуку, еваліювання та умовну логіку для поєднання робочих процесів», — сказав він, назвавши це «марнотратством людського інтелекту і обмеженням якості продукту». Переклад: якщо ваше контекстне вікно справді становить 12 мільйонів токенів і інференс є дешевим, вам не потрібен RAG. Вам не потрібен агентний pipeline пошуку. Ви просто завантажуєте все цілком. Це дуже велике твердження, і саме тут усе може розсипатися, якщо точність знижується зі збільшенням довжини.

Хто програє

Найочевидніші переможені, якщо SubQ справдить обіцянки, — це постачальники RAG-рішень. Ціла екосистема векторних баз даних, стратегій чанкінгу, гібридних систем пошуку та re-ranker-ів існує тому, що dense attention надто дорогий у масштабі. Pinecone, Weaviate, стек пошуку LangChain, півдюжини консалтингових компаній, що виставляють шестизначні рахунки за налаштування embedding-pipeline: усі вони продають рішення проблеми, яка стає меншою щоразу, коли хтось розширює шосе. Вони не зникнуть за 90 днів, але стратегічне питання в кожному board deck щойно стало складнішим.

Frontier-лабораторії стикаються з тиском іншого роду. Anthropic та Google побудували преміальні цінові рівні навколо можливості довгого контексту. Якщо стартап на посівній стадії може достовірно заявити про 300-кратне зниження вартості інференсу при 128K, цінова сила на рівнях для мільйонів токенів стискається знизу. Я б сказав, що Anthropic зокрема має найбільше втратити, зважаючи на те, наскільки корпоративна пропозиція Claude спирається на аналіз довгих документів.

Інструменти для кодування — ще одна категорія під загрозою. Пітч SubQ Code — завантаження цілих кодових баз в єдиний контекст. Cursor, Devin від Cognition, GitHub Copilot Workspace — всі вони витратили вісімнадцять місяців на розробку складних агентних робочих процесів, щоб компенсувати обмеження контексту. Якщо SubQ Code працює з передбачуваними затримками, рівень оркестрації агентів стає милицею, а не функцією.

Для вертикалей, суміжних з читачами RiverCore: команди комплаєнс у fintech, що проводять перевірку документів у масштабі, iGaming-платформи, що обробляють журнали транзакцій для виявлення шахрайства, ad-tech компанії, що обробляють дані кампаній — усі вони роками пишуть крихку логіку чанкінгу. Наступні 90 днів ці команди мають запустити SubQ API проти своїх найскладніших внутрішніх бенчмарків. Не маркетингових бенчмарків. Тих, що ламалися минулого кварталу.

Стратегія для AI-розробки

Три конкретні кроки для технічних керівників цього тижня.

По-перше, потрапте до списку очікування SubQ API і проведіть власне оцінювання. Бенчмарки постачальника — це бенчмарки постачальника. RULER 128K — це гідний тест, але це не ваш виробничий трафік. Візьміть найскладніші запити минулого місяця — ті, де ваш поточний RAG-pipeline повертав сміття — і подивіться, що станеться, коли ви перестанете формувати промпти вручну і почнете завантажувати все цілком. Закладіть два інженерні тижні на чесне оцінювання.

По-друге, проведіть аудит вашого пошукового стека з прицілом на вихід. Не тому, що ви виривате його завтра. А тому, що архітектурне припущення про необхідність пошуку тепер є спірним. Позначте, які частини вашого pipeline існують через вартість, які — через затримку, а які — через справжні потреби інформаційної архітектури (цитати, контроль доступу, актуальність). Перші дві категорії тепер є предметом переговорів.

По-третє, стежте за питанням vendor lock-in. SubQ не є open-weight і не планує ним ставати. Якщо ви будуєте продукт навколо контексту на 12 мільйонів токенів, ви ставите на дорожню карту, ціноутворення та безвідмовність одного постачальника. Це знайомий компроміс для тих, хто використовує платформу OpenAI, але варто чесно визнати це під час архітектурного огляду. Натяк на можливість навчання під конкретні потреби клієнтів свідчить про те, що Subquadratic розуміє корпоративні закупівлі, але розуміти і пропонувати доступне ціноутворення — це різні речі.

Для скептиків: припустіть, що бенчмарки трохи приукрашені, що точність знижується на довгому хвості вікна у 12 мільйонів токенів, і запитайте, чи є 1 мільйон токенів у 50 разів дешевше все ще результатом, що змінює бізнес. Моя відповідь: так, впевнено.

Ключові висновки

Subquadratic запустився 5 травня 2026 року із $29 мільйонами посівного фінансування та LLM (SubQ), що підтримує до 12 мільйонів токенів, на тлі галузевого стандарту 128K та frontier-стелі близько 1 мільйона.
Архітектура — власний трансформер із sparse attention, що переходить від квадратичного до лінійного масштабування. Подвоєння вхідних даних подвоює обчислення, а не учетверює їх.
Головний бенчмарк: 95% на RULER 128K за $8 проти Claude Opus із 94% приблизно за $2 600. Приблизно 300-кратне зниження вартості, якщо підтвердиться при незалежному тестуванні.
RAG-постачальники, інструменти оркестрації агентів та цінові рівні frontier-лабораторій для довгих контекстів найбільше під загрозою, якщо SubQ доставить заявлену якість.
Технічні керівники мають цього місяця провести власне оцінювання, перевірити, які компоненти пошуку існують виключно з міркувань вартості, та зважити vendor lock-in на одного постачальника проти економічної вигоди.

Повернемося до шосе. Кожні кілька десятиліть хтось розширює дорогу, і всі виявляють, що трафік ніколи не був справжньою проблемою — проблемою була дорога. Данґел висловився пишніше: «Фундаментальні закони масштабування, нав'язані архітектурою трансформера і dense attention, були зламані». Це велике твердження від компанії, яка існує у публічному просторі лише п'ять годин. Але якщо навіть половина з цього витримає зіткнення з виробничими навантаженнями, смуг стало значно більше — і безліч ретельно спроектованих обхідних рішень раптово виглядають як конуси посеред порожньої дороги.

Часті запитання

П: Чим модель SubQ від Subquadratic відрізняється від Claude або Gemini?

SubQ використовує власну архітектуру трансформера зі sparse attention замість dense attention, що масштабується лінійно, а не квадратично від розміру вхідних даних. Це дозволяє мати контекстне вікно до 12 мільйонів токенів порівняно з приблизно 1 мільйоном у Claude Sonnet 4.7 та Gemini 3.1 Pro, водночас значно скорочуючи вартість і затримку при довгому контексті.

П: Наскільки достовірне твердження про 300-кратне зниження вартості порівняно з Claude Opus?

Воно ґрунтується на власних результатах Subquadratic за бенчмарком RULER 128K: 95% точності за $8 проти 94% приблизно за $2 600 для Claude Opus. RULER — авторитетний бенчмарк для довгих контекстів, але поки незалежні треті сторони не відтворять результат на різноманітних навантаженнях, сприймайте цю цифру як сильний сигнал, а не як усталений факт.

П: Чи вб'є це RAG та векторні бази даних?

Не одразу, але це послаблює ключовий економічний аргумент. Retrieval-augmented generation існує переважно тому, що dense attention надто дорогий у масштабі. Якщо інференс на довгих контекстах стане у 50–300 разів дешевшим, багато сценаріїв використання, яким був потрібен RAG з міркувань вартості, зможуть просто завантажувати повні документи або кодові бази. Сценарії використання, де RAG потрібен для цитат, контролю доступу або актуальності, постраждають менше.

James O'Brien

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Microsoft планує подвоїти потужності ШІ до 2028 року

Microsoft додала цілий гігават потужностей за один квартал і планує подвоїти свій ШІ-слід до 2028 року. Математика capex розповідає справжню історію.

Moreh досягає показників A100 на Tenstorrent без надбавки за HBM

Демо TT-Deploy від Moreh розподілило LLM prefill на Tenstorrent Wormhole, залишивши decode на GPU, досягнувши показників рівня DGX A100 без витрат на HBM.

Історія Claude Code, яку ми поки що не можемо перевірити

Єдине доступне джерело про Claude Code — це сторінка перевірки браузера без жодних фактів. Ось що ця відсутність говорить покупцям AI-інструментів.