Microsoft AI Представила LongRoPE2: Почти безупречный метод расширения окон контекста LLM до 128K токенов

Новости

С значительным прогрессом Больших Языковых Моделей (LLMs) остается ключевая проблема — их неспособность эффективно обрабатывать длительные последовательности контекста. Хотя модели, такие как GPT-4o и LLaMA3.1, поддерживают окна контекста до 128 тысяч токенов, сохранить высокую производительность на увеличенной длине сложно. Важные для таких задач как многоходовые диалоги, анализ документов и длинноформатное рассуждение, длинные окна контекста сталкиваются с проблемами эффективности и точности. Существующие методы расширения окон контекста часто используют эвристическое пересчет RoPE, но при этом не решают проблемы значений вне распределения.

  • Rotary Positional Embeddings (RoPE) позволяют кодировать позиционную информацию в LLM, но могут возникать проблемы, когда они применяются за пределами их предустановленных лимитов.
  • Явленные значения вне распределения в векторных представлениях RoPE приводят к ухудшению производительности.
  • Сообщается о существенных компромиссах производительности при реальном тестировании, особенно за пределами 64 тысяч токенов.

Тем не менее, недавно выпущенный исследователями из Microsoft метод LongRoPE2 успешно преодолел эти ограничения. Этот метод предназначен для расширения окна контекста LLMs до 128 тысяч токенов при сохранении более 98.5% точности на коротких контекстах, благодаря трем ключевым улучшениям:

  • Ипотеза о том, что высшие размеры RoPE получают недостаточное обучение, что приводит к неожиданным значениям при расширении позиций токенов. Собственная оценка неопределенности (PPL) была введена для идентификации токенов, требующих глубокого контекстного понимания.
  • Использование алгоритма пересчета RoPE на основе эволюционного поиска для оптимизации факторов пересчета.
  • Включение обучения смешанным окном контекста для предотвращения утраты производительности на коротких задачах.

Результаты говорят сами за себя. LongRoPE2 продемонстрировал превосходство на различных тестах. На тесте RULER модель смогла расширить LLaMA3-8B до 128 тысяч токенов с сохранением точности 82.03%, в то время как аналогичные методы достигли всего 73.40 и 49.39 процентов соответственно. Одним из важнейших достижений стало то, что LongRoPE2 достиг этих результатов, тратя всего 10 миллиардов токенов для обучения по сравнению с 800 миллиардами, необходимых для подхода Meta, обеспечив 80-кратное улучшение эффективности.

Вкратце, LongRoPE2 предлагает новый подход к расширению окнов контекста LLM без утрат производительности на коротких контекстах. Это значительное улучшение открывает новые горизонты для применения LLM в различных областях, требующих работы с большими объемами информации.

Основные моменты исследования:

  • Успешное расширение LLaMA3-8B до 128 тысяч токенов с точностью 82.03%.
  • Эффективность в 80 раз выше по сравнению с предыдущими подходами.
  • Сохранение 97,6% точности на коротких контекстах.
  • Методика эволюционного поиска улучшает качество пересчета RoPE факторов.
  • Успешная передача модели Needle in a Haystack, близкая к идеальной точности.

Таким образом, LongRoPE2 предлагает современное решение проблемы увеличения окон контекста LLM, требующее не только увеличения количества токенов, но и решения фундаментальных ограничений в позиционных векторах.

admin
Оцените автора
CheatGPT
Добавить комментарий