一款轻量级多模态文档处理模型，高效解锁文档数字化新体验——SmolDocling

SmolDocling是一个开源的轻量级多模态文档处理模型，由IBM研究院Docling团队开发。它专为文档光学字符识别（OCR）和转换而设计，参数量仅为256M。该模型能够将文档图像端到端地转换为结构化文本，同时保留文档的原始布局和复杂元素。

1、高效转换：

SmolDocling能够将图像文档高效转换为结构化文本，支持科学和非科学文档。

2、快速推理：

在A100 GPU上处理一页文档仅需0.35秒，使用不到500MB的显存。

3、多模态识别：

支持光学字符识别（OCR），并能识别代码块、数学公式、图表、表格等复杂文档元素。

4、兼容性强：

与Docling完全兼容，支持将结果转换为多种格式（如Markdown、HTML等）。

5、创新的DocTags格式：

通过生成DocTags这种新的通用标记格式，以完整的上下文和位置捕获所有页面元素。

6、训练与优化：

采用渐进学习方法进行训练，包括冻结视觉编码器、增量训练和精细调整。

1、文档转换与数字化：

将图像形式的文档转换为结构化的文本格式，适用于文档的数字化处理。

2、科学与非科学文档处理：

能够处理学术论文、技术报告、专利文件、商业文档等多种类型的文档。

3、快速OCR与布局识别：

提供高效的光学字符识别功能，从图像中准确提取文本，保留文档结构和元素边界框。

4、移动与低资源设备支持：

可以在移动设备或资源受限的环境中运行，例如智能手机或便携式计算机。

当前网址：https://m.ipkd.cn/webs_18678.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！