NeoBERT: Модернизация моделей кодирования для улучшенного понимания языка

Новости

Необходимости модернизации моделей кодирования

Очень важно модернизировать традиционные модели кодирования, такие как BERT, которые все еще полагаются на устаревшие архитектуры и ограниченные наборы данных. Исследователи представили новую модель NeoBERT, основными особенностями которой являются:

  • Роторные позиционные эмбеддинги (RoPE), заменяющие абсолютные позиционные эмбеддинги для улучшенного обобщения длинных последовательностей.
  • Оптимизация глубины и ширины слоев.
  • Использование новых активаций, таких как SwiGLU, и методов нормализации для повышения скорости вычислений и нелинейного моделирования.

Данные и обучение NeoBERT

NeoBERT обучалась на расширенном наборе данных RefinedWeb, состоящем из 600 миллиардов токенов. Модель прошла двухэтапное увеличение контекстного окна, переработав до 4,096 токенов. Это позволяет значительно улучшить стабильность и производительность модели, делая ее доступной для приложений с длительными контекстами.

Производительность и оценки NeoBERT

NeoBERT продемонстрировал свои улучшения на многих тестовых наборах, таких как:

  • GLUE, где модель добилась 89.0% успеха, догнав RoBERTa-large при меньшем количестве параметров.
  • MTEB, где NeoBERT превзошел предыдущие модели за счет улучшенного качества эмбеддингов

Эти преуспевания подчеркивают важность модернизации моделей кодирования и делают NeoBERT доступным и эффективным решением для задач классификации, извлечения и других реальных приложений.

admin
Оцените автора
CheatGPT
Добавить комментарий