Необходимости модернизации моделей кодирования
Очень важно модернизировать традиционные модели кодирования, такие как BERT, которые все еще полагаются на устаревшие архитектуры и ограниченные наборы данных. Исследователи представили новую модель NeoBERT, основными особенностями которой являются:
- Роторные позиционные эмбеддинги (RoPE), заменяющие абсолютные позиционные эмбеддинги для улучшенного обобщения длинных последовательностей.
- Оптимизация глубины и ширины слоев.
- Использование новых активаций, таких как SwiGLU, и методов нормализации для повышения скорости вычислений и нелинейного моделирования.
Данные и обучение NeoBERT
NeoBERT обучалась на расширенном наборе данных RefinedWeb, состоящем из 600 миллиардов токенов. Модель прошла двухэтапное увеличение контекстного окна, переработав до 4,096 токенов. Это позволяет значительно улучшить стабильность и производительность модели, делая ее доступной для приложений с длительными контекстами.
Производительность и оценки NeoBERT
NeoBERT продемонстрировал свои улучшения на многих тестовых наборах, таких как:
- GLUE, где модель добилась 89.0% успеха, догнав RoBERTa-large при меньшем количестве параметров.
- MTEB, где NeoBERT превзошел предыдущие модели за счет улучшенного качества эмбеддингов
Эти преуспевания подчеркивают важность модернизации моделей кодирования и делают NeoBERT доступным и эффективным решением для задач классификации, извлечения и других реальных приложений.








