Perplexity Computerdata analyticssemantic layerPerplexity Computer Snowflake Databricks integrationagentic workspace governed data queries

Perplexity Computer подключается к Snowflake и Databricks

21 май 20266 мин. чтенияAlex Drover

// В ЭТОЙ СТАТЬЕ

01Ключевые детали 02Почему это важно для команд данных 03Влияние на отрасль 04За чем следить 05Ключевые выводы 06Часто задаваемые вопросы

Любой, кто управлял платформой данных, знает: настоящим узким местом является не вычислительная мощность, а очередь аналитики. Отдел продаж хочет цифры по воронке к обеду, финансы — срез по выручке к пятнице, а единственный перегруженный аналитик становится точкой перегрузки. Последний шаг Perplexity направляет Computer — агентное рабочее пространство — прямо в эту очередь, подключив его к Snowflake и Databricks.

Идея знакома: позволить нетехническим пользователям задавать вопросы на обычном языке, дать агенту написать SQL и получить числа, привязанные к реальным таблицам хранилища. Интересна не сама идея, а управленческая инфраструктура под ней.

Ключевые детали

Релиз позиционирует Computer как агента данных для корпоративной аналитики, как сообщил TestingCatalog AI News. Пользователи задают вопросы по авторизованным данным хранилища и лейкхауса. Computer генерирует запросы, читает исходные таблицы, применяет фильтры и возвращает метрики, привязанные к базовым данным. Целевая аудитория — бизнес-, продуктовые, продажные, финансовые и операционные команды, которые не умеют писать SQL по требованию.

Сценарии использования охватывают скучные, но дорогостоящие процессы: анализ воронки, обзоры использования продукта, сегментацию клиентов, сводки по трендам выручки и повторяющиеся аналитические процессы. Функция поставляется через коннекторы Perplexity к Snowflake и Databricks и доступна только для пользователей Pro, Max, Enterprise Pro и Enterprise Max. Администраторы управляют развёртыванием на уровне организации.

На стороне Snowflake поддерживаются базы данных, схемы, таблицы, представления, материализованные представления и структурированные форматы данных — CSV, JSON и таблицы на основе Parquet. Документация Snowflake заслуживает повторного прочтения для всех, кто подключает это к материализованным представлениям: поведение стоимости там быстро становится неочевидным. На стороне Databricks интеграция охватывает таблицы и представления Unity Catalog, таблицы Delta Lake, схемы, каталоги, внешние таблицы, зарегистрированные в Unity Catalog, и структурированные данные. Неструктурированные ресурсы — изображения, аудио, видео, файлы в хранилище, специфичном для хранилища данных, — на данном этапе не поддерживаются.

Техническим центральным элементом является нечто под названием Data Map. Perplexity описывает его как общий организационный семантический слой, построенный из структуры хранилища, связей между таблицами, исторических паттернов запросов и бизнес-контекста, предоставленного администраторами. Администраторы могут просматривать и редактировать карту, обновлять её и утверждать предлагаемые изменения на основе обратной связи пользователей. Этот последний пункт важнее, чем подсказывает маркетинг.

В части аутентификации Snowflake поддерживает пользовательский OAuth, сервисные аккаунты с аутентификацией по паре ключей или программные токены доступа. Databricks использует индивидуальную OAuth-идентификацию. Запросы выполняются под существующими разрешениями платформы, поэтому доступ регулируется Snowflake RBAC или Databricks Unity Catalog, а не интерфейсом Perplexity. Администраторы могут отключать коннекторы, управлять доступом и обеспечивать режим только для чтения на уровне платформы данных.

Почему это важно для команд данных

Если отбросить маркетинг, для руководителя платформы есть два реальных вопроса: кто владеет семантикой и кто платит за запросы.

По семантике Data Map — это правильная форма ответа. Команды, с которыми мне приходилось работать, все упирались в одну и ту же стену с text-to-SQL: модель технически способна, но не знает, что rev_net_v3 — это таблица, которой финансы на самом деле доверяют, а rev_net_v2 — та, что тихо удваивает возвраты. Семантический слой с проверкой, обновлением и процессом утверждения администратором — это то, что не даёт агенту уверенно выдавать неправильные числа. Это тот же паттерн, который команды уже строят в dbt, только вместо BI-инструмента его потребляет LLM.

Моя оценка: ценность этого релиза держится или падает в зависимости от того, насколько дисциплинированно администраторы занимаются курированием Data Map. Пропустите эту работу — и вы выпустили очень дорогой способ генерировать правдоподобно выглядящую бессмыслицу.

По стоимости: интеграция — это тонкий клиент поверх хранилища, которое выставляет счёт за каждый запрос. Каждый «быстрый вопрос» от менеджера по продажам превращается в сканирование Snowflake или Databricks. Я видел производственные инциденты, когда один неправильно настроенный дашборд BI запускал полное сканирование таблицы с пятью миллиардами строк событий каждые пятнадцать минут — и ежемесячный счёт был как удар. Теперь представьте то же самое, но триггером служат сотни нетехнических пользователей, набирающих любопытные вопросы в чате.

Средства защиты существуют. Запросы выполняются под разрешениями платформы. Администраторы могут обеспечить режим только для чтения на уровне хранилища. Материализованные представления и предварительно агрегированные таблицы по-прежнему ваши друзья. Но разговор о бюджете будет громким в любой организации, которая включит это без управления запросами. Планируйте это до того, как закупки подпишут SOW, а не после.

Неудобный вывод: этот продукт перемещает значительную часть аналитической нагрузки из вашего BI-инструмента в чат-интерфейс, и счёт за хранилище не будет интересоваться, кто именно выдал запрос.

Влияние на отрасль

Для платформ iGaming и fintech расчёт конкретен. Эти вертикали уже выполняют тяжёлые аналитические нагрузки против хранилищ для оценки рисков, сегментации игроков, сигналов мошенничества и регуляторной отчётности. Обещание позволить руководителю по борьбе с мошенничеством спросить «покажи аномалии депозитов за последние 48 часов по регионам» без вызова аналитика — действительно полезно. Риск в том, что тот же запрос, выполненный ad hoc против необработанных таблиц событий, стоит в десять раз дороже, чем эквивалентная плитка дашборда против правильно смоделированного марта.

Для ad-tech важен пробел с неструктурированными данными. Творческие ресурсы, видео, аудио, логи в объектном хранилище рядом с хранилищем — ничего из этого пока не охвачено. Так что Computer полезен для стороны расходов и производительности, но менее полезен для анализа творческих материалов. Стоит знать об этом, прежде чем кто-то в маркетинге решит, что он умеет всё.

Для корпоративных инфраструктурных команд главная тема — история с аутентификацией. Сервисные аккаунты с аутентификацией по паре ключей, OAuth, программные токены на Snowflake; OAuth-идентификация на Databricks; разрешения, применяемые через RBAC и Unity Catalog. Это правильный ответ. Это означает, что проверка безопасности действительно может одобрить это без необходимости изобретать новую модель разрешений. Это также означает, что радиус поражения при компрометации аккаунта Perplexity ограничен тем, что этот пользователь уже мог делать в хранилище — именно так и должно работать.

Более широкий сигнал: семантические слои становятся оспариваемой территорией в аналитике. У dbt он есть. У Looker он есть. У Cube он есть. Теперь и у Perplexity есть. Тот, кто владеет доверенным определением «ежемесячного регулярного дохода» внутри вашей компании, владеет аналитическим процессом. Это серьёзное место для того, чтобы водрузить флаг.

За чем следить

Три вещи стоит отслеживать в течение следующих двух кварталов.

Первое — телеметрия стоимости запросов. Любая команда, развёртывающая это, должна отдельно инструментировать запросы, инициированные Perplexity, в данных об использовании Snowflake или Databricks и проверять их еженедельно. Если вы не можете пометить источник, вы не можете управлять расходами. Первая финансовая команда, получившая неожиданный счёт за хранилище, станет последней, кто одобрит следующий AI-инструмент без ограничений по стоимости.

Второе — дрейф Data Map. Семантические слои, утверждённые администратором, как правило, устаревают, как только человек, который их создал, меняет роль. Следите за тем, добавит ли Perplexity версионирование, метаданные владельца и сигналы устаревания для записей Data Map. Без них слой превращается в «полочное ПО» через 18 месяцев.

Третье — вопрос неструктурированных данных. Сейчас это вне охвата. Если Perplexity расширит это на журналы запросов, транскрипты поддержки или медиаметаданные, хранящиеся рядом с хранилищем, продукт станет значительно интереснее — и проблема управления станет значительно сложнее. Для OLAP-ориентированных компаний, уже оценивающих такие движки, как ClickHouse, для аналитики логов, следите за тем, начнут ли агентные интерфейсы также обращаться к этим хранилищам.

Ключевые выводы

Управление действительно хорошее: запросы наследуют разрешения Snowflake RBAC и Databricks Unity Catalog, так что существующий контроль доступа по-прежнему применяется.
Data Map — это настоящий продукт: семантический слой с проверкой администратором — это то, что отличает это от обычной text-to-SQL игрушки. Курируйте его или откажитесь от развёртывания.
Заложите бюджет на расходы хранилища: каждый запрос в чате — это тарифицируемое сканирование. Помечайте, отслеживайте и предварительно агрегируйте данные до открытия широкой аудитории.
Неструктурированные данные вне охвата: изображения, аудио, видео и файлы рядом с хранилищем пока не поддерживаются. Планируйте соответственно.
Уровневое ограничение важно: доступ получают только пользователи Pro, Max, Enterprise Pro и Enterprise Max, с элементами управления администратора на уровне организации. Закупки и IT должны быть согласованы до пилота.

Часто задаваемые вопросы

В: Обходит ли Perplexity Computer разрешения Snowflake или Databricks?

Нет. Запросы выполняются под существующими разрешениями платформы, поэтому доступ применяется через Snowflake RBAC или Databricks Unity Catalog. Администраторы также могут отключать коннекторы и обеспечивать режим только для чтения на уровне платформы данных.

В: Может ли Computer запрашивать неструктурированные данные, например PDF или изображения, хранящиеся рядом с хранилищем?

На данном этапе нет. Интеграция охватывает структурированные данные, включая таблицы CSV, JSON и Parquet на Snowflake, а также таблицы Delta Lake и ресурсы Unity Catalog на Databricks. Неструктурированные файлы в хранилище, специфичном для хранилища данных, не охвачены.

В: Что такое Data Map и почему это важно?

Data Map — это общий организационный семантический слой Perplexity, построенный из структуры хранилища, связей между таблицами, исторических паттернов запросов и бизнес-контекста администраторов. Администраторы могут проверять, редактировать и утверждать обновления — именно это не даёт агенту генерировать уверенные, но неправильные ответы.

Alex Drover

RiverCore Analyst · Dublin, Ireland

// ПОХОЖИЕ СТАТЬИ