SmolDocling：轻量多模态文档处理新突破

摘要： 一款名为SmolDocling的轻量级多模态文档处理模型横空出世，以其高效、快速、低资源消耗的特性，为文档数字化领域带来新的可能性。该模型能够将文档图像端到端地转换为结构化文本，并支持多种复杂元素的识别，有望在学术研究、商业应用等领域发挥重要作用。

北京 – 在人工智能技术日新月异的今天，文档处理领域也迎来了新的突破。近日，一款名为SmolDocling的轻量级多模态文档处理模型正式发布，引起了业界的广泛关注。这款模型以其高效、快速、低资源消耗的特性，有望加速文档数字化进程，并为用户带来更加便捷的使用体验。

SmolDocling（SmolDocling-256M-preview）是一款参数量仅为256M的视觉语言模型，专为文档光学字符识别（OCR）和转换而设计。与传统的文档处理模型相比，SmolDocling具有显著的优势：

高效轻量： 模型参数量小，推理速度快，在A100 GPU上每页处理仅需0.35秒，且仅需不到500MB的显存，即使在消费级GPU上也能快速处理文档。
多模态文档转换： 能够将图像文档高效转换为结构化文本，支持科学和非科学文档的处理，并能识别文本、公式、图表等多种元素。
复杂元素识别： 支持代码块、数学公式、图表、表格等复杂文档元素的识别，并能将图表转换为表格，将公式转换为LaTeX等格式。
无缝集成： 与Docling完全兼容，支持将结果转换为多种格式（如Markdown、HTML等），方便用户进行后续处理。

技术原理：轻量化设计与高效训练策略

SmolDocling之所以能够实现如此高效的性能，得益于其独特的技术原理。该模型采用了SigLIP base patch-16/512作为视觉骨干网络，该网络参数量为93M，能够高效地处理图像输入。同时，模型还使用了SmolLM-2作为文本编码器，该编码器参数量为135M，能够处理文本输入并与视觉信息进行融合。

此外，SmolDocling在训练过程中采用了优化的数据集与训练策略。该模型的训练数据集包括科学和非科学文档，文档理解占比达到41%。同时，训练过程中采用了更高的像素标记率（4096像素/标记），相比之前的1820像素/标记，显著提升了效率。

应用场景：广泛的应用前景

SmolDocling的应用场景十分广泛，包括：

文档转换与数字化： 能够高效地将图像形式的文档转换为结构化的文本格式，同时保留文档的原始布局和复杂元素，适用于文档的数字化处理。
科学与非科学文档处理： 能够处理非科学内容（如商业文档、专利文件等），并识别和提取文档中的关键信息，如公式、图表和表格。
快速OCR与布局识别： 提供高效的光学字符识别（OCR）功能，能够从图像中准确提取文本，并保留文档的结构和元素边界框。
移动与低资源设备支持： 可以在移动设备或资源受限的环境中运行，例如智能手机或便携式计算机。

专家观点：文档处理领域的新突破

“SmolDocling的问世，是文档处理领域的一个重要突破，”一位人工智能领域的专家表示，“该模型以其轻量化、高效化的特点，降低了文档数字化的门槛，使得更多的用户能够享受到人工智能技术带来的便利。未来，随着技术的不断发展，SmolDocling有望在学术研究、商业应用等领域发挥更大的作用。”

项目地址：

HuggingFace模型库：https://huggingface.co/ds4sd/SmolDocling-256M-preview
arXiv技术论文：https://arxiv.org/pdf/2503.11576

结论：

SmolDocling的发布，标志着轻量级多模态文档处理技术迈出了重要一步。该模型以其高效、快速、低资源消耗的特性，为文档数字化领域带来了新的可能性。未来，随着技术的不断发展，SmolDocling有望在学术研究、商业应用等领域发挥更大的作用，并为用户带来更加便捷的使用体验。

参考文献：

ds4sd. (n.d.). SmolDocling-256M-preview. Hugging Face. Retrieved from https://huggingface.co/ds4sd/SmolDocling-256M-preview
ds4sd. (n.d.). SmolDocling: Lightweight Multimodal Document Processing Model. arXiv. Retrieved from https://arxiv.org/pdf/2503.11576

>>> Read more <<<