Исследователи IBM и Hugging Face представили SmolDocling
Преобразование сложных документов в структурированные данные давно является значительной задачей в области компьютерных наук. Традиционные подходы, использующие ансамблевые системы или очень крупные фундаментальные модели, часто сталкиваются с препятствиями, такими как сложность настройки, проблемы с обобщением, галлюцинации и высокие вычислительные затраты.
Исследователи от IBM и Hugging Face недавно решили эти задачи, выпустив SmolDocling, 256M открытую модель для мультимодального преобразования документов. В отличие от крупных моделей, SmolDocling предлагает упрощенное решение, обрабатывающее целые страницы через одну модель, значительно снижая сложность и вычислительные затраты. Она компактна с 256 миллионами параметров, что делает её легкой и эффективной.
Новаторский формат DocTags
Исследователи также разработали универсальный формат разметки DocTags, который точно фиксирует элементы страницы, их структуры и пространственные контексты в компактной и понятной форме. SmolDocling использует компактную архитектуру SmolVLM-256M от Hugging Face, которая значительно снижает вычислительную сложность благодаря оптимизированной токенизации и агрессивным методам сжатия визуальных функций.
Эффективность и быстродействие
Ее основной силой является инновационный формат DocTags, предоставляющий структурированную разметку, четко разделяющую макет документа, текстовое содержимое и визуальную информацию. SmolDocling использует обучение с куррикулумом для эффективной тренировки, изначально замораживая свой зрительный энкодер и постепенно проводя тонкую настройку с использованием обогащенных наборов данных.
Дополнительно, высокая эффективность модели позволяет обрабатывать целые страницы документов практически мгновенно, со средней скоростью 0,35 секунды на страницу на потребительском GPU и расходом меньше 500 МБ видеопамяти (VRAM). Результаты четко позиционируют SmolDocling как лидера в современных технологиях.
Результаты тестирования и уникальные возможности
На обширных тестированиях SmolDocling превосходила более крупные конкурирующие модели. Например, в задачах OCR по полным страницам SmolDocling добилась лучшей точности, таких как существенно меньшая дистанция редактирования (0.48) и более высокий F1-скор (0.80), по сравнению с моделями как Qwen2.5 VL (7B параметров) и Nougat (350M параметров). Она также превосходила в транскрипции уравнений и распознании кодов.
Что отличает SmolDocling от других решений OCR — это способность обрабатывать разнообразные элементы в документах, включая сложные элементы, такие как код, диаграммы, уравнения и различные заверстки. Её возможности простираются за пределы типичных научных работ и надежно обрабатывают патенты, формы и бизнес-документацию.
Благодаря предоставлению комплексной структурированной метаданных через DocTags, SmolDocling устраняет двусмысленности, присущие форматам как HTML или Markdown, улучшая использование результатов преобразования документов.
Заключение
В заключение, SmolDocling представляет собой значительный прорыв в технологии преобразования документов, демонстрируя, что компактные модели могут не только соперничать, но и значительно превосходить более крупные фундаментальные модели в ключевых задачах. Выпуск SmolDocling не только устанавливает новый стандарт в эффективности и универсальности для технологий OCR, но и предоставляет ценную ресурс для сообщества через открыто доступные наборы данных и высокоэффективную, компактную архитектуру модели.
Это открывает захватывающие новые возможности для корпоративных приложений и более широкой доступности.
Подписывайтесь на наш telegram-канал








