IBM и Hugging Face представили SmolDocling: 256M открытую модель для полного OCR документов

Новости

Исследователи IBM и Hugging Face представили SmolDocling

Преобразование сложных документов в структурированные данные давно является значительной задачей в области компьютерных наук. Традиционные подходы, использующие ансамблевые системы или очень крупные фундаментальные модели, часто сталкиваются с препятствиями, такими как сложность настройки, проблемы с обобщением, галлюцинации и высокие вычислительные затраты.

Исследователи от IBM и Hugging Face недавно решили эти задачи, выпустив SmolDocling, 256M открытую модель для мультимодального преобразования документов. В отличие от крупных моделей, SmolDocling предлагает упрощенное решение, обрабатывающее целые страницы через одну модель, значительно снижая сложность и вычислительные затраты. Она компактна с 256 миллионами параметров, что делает её легкой и эффективной.

Новаторский формат DocTags

Исследователи также разработали универсальный формат разметки DocTags, который точно фиксирует элементы страницы, их структуры и пространственные контексты в компактной и понятной форме. SmolDocling использует компактную архитектуру SmolVLM-256M от Hugging Face, которая значительно снижает вычислительную сложность благодаря оптимизированной токенизации и агрессивным методам сжатия визуальных функций.

Эффективность и быстродействие

Ее основной силой является инновационный формат DocTags, предоставляющий структурированную разметку, четко разделяющую макет документа, текстовое содержимое и визуальную информацию. SmolDocling использует обучение с куррикулумом для эффективной тренировки, изначально замораживая свой зрительный энкодер и постепенно проводя тонкую настройку с использованием обогащенных наборов данных.

Дополнительно, высокая эффективность модели позволяет обрабатывать целые страницы документов практически мгновенно, со средней скоростью 0,35 секунды на страницу на потребительском GPU и расходом меньше 500 МБ видеопамяти (VRAM). Результаты четко позиционируют SmolDocling как лидера в современных технологиях.

Результаты тестирования и уникальные возможности

На обширных тестированиях SmolDocling превосходила более крупные конкурирующие модели. Например, в задачах OCR по полным страницам SmolDocling добилась лучшей точности, таких как существенно меньшая дистанция редактирования (0.48) и более высокий F1-скор (0.80), по сравнению с моделями как Qwen2.5 VL (7B параметров) и Nougat (350M параметров). Она также превосходила в транскрипции уравнений и распознании кодов.

Что отличает SmolDocling от других решений OCR — это способность обрабатывать разнообразные элементы в документах, включая сложные элементы, такие как код, диаграммы, уравнения и различные заверстки. Её возможности простираются за пределы типичных научных работ и надежно обрабатывают патенты, формы и бизнес-документацию.

Благодаря предоставлению комплексной структурированной метаданных через DocTags, SmolDocling устраняет двусмысленности, присущие форматам как HTML или Markdown, улучшая использование результатов преобразования документов.

Заключение

В заключение, SmolDocling представляет собой значительный прорыв в технологии преобразования документов, демонстрируя, что компактные модели могут не только соперничать, но и значительно превосходить более крупные фундаментальные модели в ключевых задачах. Выпуск SmolDocling не только устанавливает новый стандарт в эффективности и универсальности для технологий OCR, но и предоставляет ценную ресурс для сообщества через открыто доступные наборы данных и высокоэффективную, компактную архитектуру модели.

Это открывает захватывающие новые возможности для корпоративных приложений и более широкой доступности.


Подписывайтесь на наш telegram-канал

admin
Оцените автора
CheatGPT
Добавить комментарий