GLM-OCR是智谱AI开源的轻量级多模态OCR模型,模型基于GLM-V架构打造,集成智谱自研CogViT视觉编码器与轻量跨模态连接层,创新引入多Token预测损失和强化学习训练策略,在手写体、复杂表格、代码文档、印章、多语言混排等高难识别场景表现卓越。
DeepSeek-OCR 2是DeepSeek团队推出的第二代高性能光学字符识别模型,模型搭载因果流查询与双流注意力核心机制,可动态重排视觉Token,精准还原复杂文档的自然阅读逻辑。
LightOnOCR-2-1B是LightOnAI推出的轻量级OCR模型,在学术论文、数学公式、复杂表格等复杂文档处理场景中表现卓越。该模型基于RLVR强化学习技术构建,可直接输出Markdown格式结构化文本,支持表格还原、公式识别与多栏布局处理。