PaddleOCR-VL是百度飞桨团队推出的轻量级多模态文档解析模型,参数量仅0.9B,专为低算力设备部署优化。该模型在国际权威评测OmnidocBench V1.5中以 92.6分斩获全球第一,性能超越GPT-4o等主流模型。
Logics-Parsing是阿里巴巴推出的开源端到端文档解析模型,基于多模态大模型Qwen2.5-VL-7B构建。该模型创新融合监督微调与布局中心型强化学习技术,攻克复杂文档的结构解析与内容理解难题。