Q-Filters: Безтренировочный метод оптимизации
Модели больших языков (LLMs) значительно продвинулись благодаря архитектуре Transformer. Однако увеличенная длина контекста ведет к возрастанию задержки декодирования и ограниченности памяти. KV Cache, хранящая контекстную информацию в памяти GPU, растет пропорционально длине контекста, что препятствует эффективному процессу инференса при обработке обширных входных последовательностей, что создает необходимость в оптимизационных решениях. Существующие методы часто зависят от доступа к весам внимательности, требуя частичной рекомпутации матриц внимательности и создавая накладные расходы по времени и памяти.
Представляем Q-Filters
Эта работа от Sorbonne Université и других предоставляет Q-Filters, тренинг-фри технику оптимизации KV Cache, использующую фильтрацию, основанную на запросах, для оптимизации использования памяти без ущерба для производительности модели. Q-Filters оценивают важность пар ключ-значение на основе их релевантности к текущему запросу, сохраняя совместимость с алгоритмами внимательности. Методика динамически оценивает и сохраняет только наиболее релевантную контекстную информацию, достигая значительного уменьшения памяти при сохранении качества инференса.
Математическая основа и производительность Q-Filters
Q-Filters основывается на геометрии запросов и ключей. Исследования показывают, что проектирование ключевых векторов вдоль анизотропного направления обеспечивает надежную оценку весов внимания. Этот подход обеспечивает сжатие через единоразовую подготовку после тренировки модели. Q-Filters демонстрируют исключительные результаты в тестах на языковом моделеировании и других сценах, превосходя существующие методы компрессии и достигая наименьшей перплексии.
Практическая эффективность и устойчивость
Q-Filters предлагают эффективное решение для сред с ограниченной памятью без ущерба для способности модели обрабатывать длинные контексты. Они демонстрируют замечательную устойчивость к требованиям калибровки, показывая стабильность и надежность при разнообразии тестовых наборов данных.








