Microsoft AI представляет Belief State Transformer (BST): улучшение целеориентированного моделирования последовательностей с двунаправленным контекстом

Новости

Введение

Модели трансформеров значительно преобразили моделирование языка, позволив генерировать текст в крупных масштабах с появляющимися свойствами. Однако они сталкиваются с трудностями, когда задачи требуют основательного планирования. Исследователи изучили модификации архитектуры, целей и алгоритмов для повышения способности этих моделей достигать целей. Некоторые подходы выходят за рамки традиционного моделирования слева направо, включая двунаправленный контекст, как в моделях, обученных на прошлой и будущей информации. Другие пытаются оптимизировать порядок генерации, такие как латентно-переменное моделирование или двоичное дерево декодирования, хотя методы автоагрессии слева направо часто остаются превосходящими.

Новый подход

Недавний подход включает совместное обучение трансформера для декодирования вперед и назад, улучшая способность модели поддерживать компактные состояния убежденности. Дальнейшие исследования изучили предсказание нескольких токенов одновременно для улучшения эффективности. Некоторые модели были разработаны для генерации более одного токена за раз, что приводит к более быстрой и надежной генерации текста. Предварительная подготовка на предсказания много токенов показала улучшение производительности в крупных масштабах.

Belief State Transformer (BST)

Исследователи из Microsoft Research, Университета Пенсильвании, UT Austin и Университета Альберты представили Belief State Transformer (BST). Эта модель улучшает предсказание следующего токена, учитывая как префикс, так и суффиксные контексты. В отличие от стандартных трансформеров, BST кодирует информацию в двунаправленном порядке, предсказывая следующий токен после префикса и предыдущий токен перед суффиксом. Этот подход улучшает производительность в сложных задачах, таких как генерация текста с учетом целей и структурированные предсказания в проблемах, таких как звездные графы.

Обучаясь компактному состоянию убежденности, BST превосходит традиционные методы в моделировании последовательностей, предлагая более эффективный вывод и более сильные текстовые представления, с обещающими последствиями для приложений в больших масштабах.

Преимущества и результаты

В отличие от традиционных моделей предсказания следующих токенов, BST предназначена для улучшения моделирования последовательностей за счет интеграции как передних, так и обратных кодировщиков. Она использует передний кодировщик для префиксов и обратный кодировщик для суффиксов, предсказывая следующие и предыдущие токены. Этот подход предотвращает использование моделью стратегий упрощения и улучшает обучение долгосрочных зависимостей.

BST превосходит базовые модели в навигации звездных графов, где трансформеры, работающие только вперед, терпят неудачу. Упражнения подтверждают, что цель состояния убежденности и обратный кодировщик являются необходимыми для производительности. Во время вывода, BST исключает обратный кодировщик, поддерживая эффективность при сохранении поведения, ориентированного на цели.

В отличие от моделей, работающих только вперед или с предсказанием нескольких токенов, BST эффективно строит компактное состояние убежденности. Состояние убежденности кодирует всю необходимую информацию для будущих предсказаний. BST обучается таким представлениям, совместно моделируя префиксы и суффиксы, позволяя генерацию текста, ориентированную на цели.

Заключение

В заключение, BST улучшает предсказание следующих токенов с учетом целей, устраняя ограничения традиционных моделей, работающих только вперед. Она строит компактное состояние убежденности, кодируя всю необходимую информацию для будущих предсказаний. В отличие от обычных трансформеров, BST предсказывает следующий токен для префикса и предыдущий токен для суффикса, что делает ее более эффективной в сложных задачах. Эмпирические результаты демонстрируют ее преимущества в написании историй, превосходя подход Fill-in-the-Middle.

Хотя наши эксперименты подтверждают ее производительность на маломасштабных задачах, требуются дальнейшие исследования для изучения ее масштабируемости и применимости к более широким задачам, ориентированным на цели, повышая эффективность и качество вывода.

admin
Оцените автора
CheatGPT
Добавить комментарий