Институт искусственного интеллекта Аллена (AI2) выпускает OLMo 32B
Быстрая эволюция искусственного интеллекта (ИИ) привела к появлению больших языковых моделей (LLM), способных понимать и генерировать текст, похожий на созданный человеком. Однако закрытый характер многих из этих моделей создает проблемы для доступности, сотрудничества и прозрачности в исследовательской среде. К тому же, значительные вычислительные ресурсы, необходимые для обучения таких моделей, часто ограничивают участие только крупными организациями с хорошим финансированием, что препятствует более широким инновациям.
С целью устранения этих проблем, Институт искусственного интеллекта Аллена (AI2) представил OLMo 2 32B, самую последнюю и продвинутую модель в серии OLMo 2. Эта модель выделяется как первая полностью открытая модель, которая превосходит GPT-3.5 Turbo и GPT-4o mini по ряду широко признанных академических бенчмарков с множественными навыками. Предоставляя все данные, код, веса и детали обучения в открытом доступе, AI2 поощряет культуру открытости и сотрудничества, позволяя исследователям по всему миру развивать эту работу.
Архитектура и обучение OLMo 2 32B
Архитектура OLMo 2 32B включает 32 миллиарда параметров, что отражает значительное масштабирование по сравнению с предшественниками. Процесс обучения был тщательно структурирован в две основные фазы: предварительное обучение и среднее обучение. Во время предварительного обучения модель обработала около 3.9 триллионов токенов из различных источников, включая DCLM, Dolma, Starcoder и Proof Pile II, что обеспечило всестороннее понимание языковых закономерностей. Фаза среднего обучения использовала набор данных Dolmino, который состоит из 843 миллиардов токенов, отобранных по качеству, включая образовательный, математический и академический контент. Такой поэтапный подход гарантировал, что OLMo 2 32B развила устойчивое и нюансированное понимание языка.
Эффективность модели и результаты тестирования
Особенностью OLMo 2 32B является ее эффективность в обучении. Модель достигла уровней производительности, сравнимых с ведущими моделями с открытыми весами, используя лишь часть вычислительных ресурсов. Например, она требовала примерно треть вычислительных мощностей для обучения по сравнению с моделями, такими как Qwen 2.5 32B, что подчеркивает стремление AI2 к ресурсосберегающей разработке ИИ.
В ходе оценки по бенчмаркам, OLMo 2 32B продемонстрировала впечатляющие результаты. Она соответствовала или превосходила производительность таких моделей, как GPT-3.5 Turbo, GPT-4o mini, Qwen 2.5 32B и Mistral 24B. Более того, она приблизилась к уровням производительности более крупных моделей, таких как Qwen 2.5 72B и Llama 3.1 и 3.3 70B. Эти оценки охватывают различные задачи, включая Massive Multitask Language Understanding (MMLU), решение математических задач (MATH) и оценку выполнения инструкций (IFEval), подчеркивая универсальность и компетентность модели в разнообразных языковых тестах.
Значимость выпуска OLMo 2 32B
Выпуск OLMo 2 32B является ключевым достижением в стремлении к открытому и доступному ИИ. Представив полностью открытую модель, которая не только конкурирует с некоторыми закрытыми моделями, но и превосходит их, AI2 демонстрирует, как продуманное масштабирование и эффективные методологии обучения могут привести к значительным прорывам. Такая открытость способствует более инклюзивной и кооперативной среде, позволяя исследователям и разработчикам по всему миру активно участвовать в эволюции области искусственного интеллекта.
Подписывайтесь на наш telegram-канал








