Европейский стартап Pruna AI, работающий над алгоритмами сжатия моделей ИИ, в четверг открывает свой фреймворк для оптимизации как открытый исходный код. Pruna AI создала фреймворк, который применяет несколько методов повышения эффективности, таких как кэширование, обрезка, квантификация и дистилляция, к заданной модели ИИ. «Мы также стандартизируем сохранение и загрузку сжатых моделей, применение комбинаций этих методов сжатия, а также оценку вашей сжатой модели после сжатия,» — сказал соучредитель Pruna AI и технический директор Джон Рачван в интервью TechCrunch.
В частности, фреймворк Pruna AI может оценить, значительна ли потеря качества после сжатия модели и какими являются полученные улучшения производительности. «Если бы я использовал метафору, мы похожи на то, как Hugging Face стандартизировал трансформеры и диффузоры — как их вызывать, как сохранять, загружать и т.д. Мы делаем то же самое, но для методов повышения эффективности,» добавил он. Крупные лаборатории ИИ уже используют различные методы сжатия.
Например, OpenAI полагается на дистилляцию для создания более быстрых версий своих флагманских моделей. Вероятно, так OpenAI разработала GPT-4 Turbo, более быструю версию GPT-4. Аналогично, модель генерации изображений Flux.1-schnell является дистиллированной версией модели Flux.1 из лаборатории Black Forest Labs. Дистилляция — это техника, используемая для извлечения знаний из крупной модели ИИ с помощью модели «учитель-ученик». Разработчики отправляют запросы к модели-учителю и записывают выводы. Ответы иногда сравниваются с набором данных, чтобы оценить их точность.
Эти выводы затем используются для обучения модели-ученика, которая обучается приближению поведения учителя. «Для крупных компаний обычно они делают все это в своем внутреннем окружении. А то, что можно найти в открытом исходном коде, обычно основано на одиночных методах. Например, один метод квантификации для больших языковых моделей или один метод кэширования для диффузионных моделей,» — сказал Рачван. «Но вы не можете найти инструмент, который объединяет все их, делает их все легкими в использовании и комбинировании вместе. И это та большая ценность, которую Pruna приносит прямо сейчас.»
Совместимость и интеграция
Хотя Pruna AI поддерживает любой вид моделей, от больших языковых до диффузионных моделей, моделей преобразования речи в текст и моделей компьютерного зрения, компания в настоящее время сосредоточена более конкретно на моделях генерации изображений и видео. Некоторые из существующих пользователей Pruna AI включают Scenario и PhotoRoom.
Помимо версии с открытым исходным кодом, Pruna AI предлагает корпоративное решение с расширенными функциями оптимизации, включая агента оптимизации. «Самая захватывающая функция, которую мы скоро выпустим, — это агент сжатия,» — сказал Рачван. «По сути, вы даете ему вашу модель, говорите: ‘Я хочу больше скорости, но не давай сбросить мою точность более чем на 2%.’ И затем агент просто делает свое дело. Он найдет лучшую комбинацию для вас, вернет ее вам. Вам не нужно ничего делать как разработчику.»
Pruna AI взимает плату за свою профессиональную версию по часовому тарифу. «Это похоже на то, как вы думаете о GPU, когда арендуете GPU на AWS или любой другой облачной службе,» добавил Рачван. И если ваша модель является критической частью вашей инфраструктуры ИИ, вы сэкономите много денег на выводе с оптимизированной моделью. Например, Pruna AI удалось сделать модель Llama в восемь раз меньшей без значительной потери, используя свою платформу сжатия.
Финансирование и будущее
Pruna AI надеется, что ее клиенты будут рассматривать ее платформу сжатия как инвестицию, которая окупается. Несколько месяцев назад компания привлекла 6,5 миллионов долларов начальных инвестиций. Среди инвесторов стартапа — EQT Ventures, Daphni, Motier Ventures и Kima Ventures.
Об авторе
Ромен Диллет — старший репортер в TechCrunch. Он написал более 3000 статей о технологиях и технологических стартапах и утвердился как влиятельный голос на европейской техносцене. У него есть обширный опыт в стартапах, конфиденциальности, безопасности, финтеках, блокчейне, мобильных технологиях, социальных и медийных проектах. С двенадцатью годами опыта в TechCrunch он является одним из знакомых лиц технопубликации, которая одержима покрытием Силиконовой долины и технологической индустрии.
На самом деле, его карьера началась в TechCrunch, когда ему было 21 год. Базирующийся в Париже, многие люди в техноэкосистеме считают его самым знающим технологическим журналистом в городе. Ромен любит обнаруживать важные стартапы прежде других. Он был первым, кто освещал такие компании, как N26, Revolut и DigitalOcean. Он писал новости о крупных поглощениях Apple, Microsoft и Snap. Когда он не пишет, Ромен также занимается разработкой — он понимает, как работает технология за технологиями.
У него также есть глубокие исторические знания о компьютерной индустрии за последние 50 лет. Он знает, как связать точки между инновациями и их влиянием на нашу общественную ткань. Ромен окончил Emlyon Business School, признанную французскую бизнес-школу, специализирующуюся на предпринимательстве. Он помогал нескольким некоммерческим организациям, таким как StartHer, организацией, которая продвигает образование и расширение прав и возможностей женщин в сфере технологий, и Techfugees, организацией, которая расширяет возможности перемещенных лиц с помощью технологий.
Подписка и новости
TechCrunch Daily News предоставляет лучшие по охвату новости TechCrunch каждый будний день и в воскресенье. Эксперты TechCrunch в области ИИ освещают последние новости в быстро развивающейся области. Подписывайтесь на Startups Weekly и другие отправки. Вы согласны с нашими Условиями использования и Политикой конфиденциальности.
Связанное
AI ChatGPT столкнулся с проблемой конфиденциальности из-за клеветнических заблуждений. Официальный сайт предлагает связаться с нами для рекламы или на сайте Crunchboard для поиска работы. Ознакомьтесь с условиями использования и политикой конфиденциальности на нашем сайте.








