AI Deep Research: Grok vs ChatGPT vs Perplexity в 2025

Новости

Функция «глубокого исследования» (Deep research) доступна в некоторых LLM и предоставляет пользователям более широкий спектр поисковых возможностей по сравнению с AI-поисковиками.

Были протестированы и оценены следующие инструменты для определения их полезности:

  1. Grok 3 Deep Search
  2. ChatGPT Deep Research с o1
  3. Perplexity Deep Research

Результаты
Оценка проводилась по точности и количеству источников.

Grok лидирует по количеству корректно предоставленных данных.

Grok также занимает лидирующую позицию по числу индексированных источников.


Задача 1

Был поставлен запрос на создание таблиц по корпоративному ПО для управления паролями согласно заданному промпту. Полный текст промпта приведён ниже.

Perplexity выдал подробный отчёт, однако таблица, содержащая собранную информацию, не была сформирована. Так как в промпте требовался именно табличный вывод, за эту задачу инструмент получил 0 баллов.


Задача 2

Цель второй задачи заключалась в проверке скорости и охвата исследования. Запрос включал создание детального отчёта по уровню внедрения RPA, чтобы определить количество индексируемых страниц и скорость формирования отчёта. Хотя количество источников не обязательно отражает качество исследования, для инструментов, предназначенных для ускорения поиска, этот показатель имеет большое значение.

Также следует отметить, что время, затрачиваемое на поиск, существенно различается между инструментами. Grok Deep Search работает примерно в 10 раз быстрее, чем ChatGPT Deep Research, при этом индексируя примерно в 3 раза больше веб-страниц.


Методология

Каждый фрагмент данных, указанный в промпте, оценивался в 1 балл. Если вывод не предоставлялся в табличном формате, инструмент получал 0 баллов.

Текст промпта для Задачи 1:

Исследуйте и оцените топ-5 корпоративных решений для управления паролями, опираясь на следующие критерии, чтобы определить наиболее эффективное решение для корпоративного внедрения.

Критерии

  1. Security Features
    – Используемый стандарт шифрования
    – Реализация архитектуры «нулевого знания»
    – Поддерживаемые варианты MFA
    – Сертификаты безопасности от сторонних организаций
    – Функции мониторинга состояния паролей
  2. Deployment & Integration
    – Варианты развёртывания
    – Возможности интеграции с каталогами
    – Наличие и функциональность API
    – Интеграция SSO
  3. User Experience
    – Совместимость с браузерными расширениями
    – Наличие и рейтинг мобильных приложений
    – Возможности офлайн-доступа
    – Функциональность совместного использования паролей
  4. Administration
    – Настройки принудительной политики паролей
    – Автоматизация назначения и удаления пользователей
    – Отчётность и функции соответствия требованиям
    – Протоколы экстренного доступа
  5. Cost & Scalability
    – Сравнение стоимости на основе стандартных корпоративных сценариев (100 пользователей, 500 пользователей, 1000+ пользователей)

Формат вывода

  1. Подробная таблица по каждому критерию
  2. Таблица сравнения стоимости с учётом стандартных сценариев

В задаче 2 оценивался объём проведённого исследования путём сравнения количества указанных ссылок. Прямое сравнение статей не является объективным методом, поскольку подготовка истинной базы данных затруднена. Однако количество ссылок даёт общее представление о способности инструмента предоставлять информацию, ведь их сила заключается в возможности индексировать сотни веб-страниц за считанные минуты.


Преимущества инструментов AI deep research

Такие инструменты позволяют получать быстрые ответы без необходимости читать множество страниц. Например, во второй задаче Grok проиндексировал более 100 разных страниц. Обычно для изучения такого объёма информации требуются часы, тогда как Grok справился примерно за 2 минуты. Это значительно ускоряет исследовательский процесс. Однако всегда следует учитывать возможность галлюцинаций и появления неверных данных, поэтому информация из LLM требует дополнительной проверки.


Проблемы и ограничения инструментов AI deep research

Большинство пользователей настроены скептически по отношению к точности сгенерированной информации и предпочитают перепроверять данные, поскольку LLM могут выдавать недостоверные сведения. Проблема глубокой проверки заключается в том, что, несмотря на более широкий охват и наличие источников, создаётся впечатление абсолютной точности. На самом деле даже при глубоком исследовании LLM склонны к галлюцинациям, что может привести к серьёзным заблуждениям.

admin
Оцените автора
CheatGPT
Добавить комментарий