FG-CLIP 2:360推出的新一代开源双语细粒度视觉语言对齐模型

FG-CLIP 2是360推出的新一代开源双语细粒度视觉语言对齐模型,模型凭借创新的层次化对齐架构与动态注意力机制,在29项权威基准测试中超越Google SigLIP 2、Meta MetaCLIP 2等主流模型,跻身全球顶尖视觉语言模型行列。

360开源AI视觉语言模型
DeepSeek-OCR:DeepSeek团队开源的高效长文本视觉语言处理模型

DeepSeek-OCR是DeepSeek团队研发的一款视觉语言模型,主打基于视觉压缩技术的长文本高效处理能力。该模型采用DeepEncoder编码器+DeepSeek3B-MoE解码器的架构,可在保留高分辨率输入信息的前提下,大幅降低激活内存占用与视觉标记数量。

AI视觉语言模型DeepSeek模型
SAIL-VL2:抖音 × 新加坡国立大学联合开源的视觉语言模型

SAIL-VL2是抖音团队与新加坡国立大学联合研发的开源视觉语言基础模型,模型由SAIL-ViT视觉编码器、视觉-语言适配器与大语言模型三大核心模块构成,创新性采用渐进式训练框架,从视觉预训练、多模态融合,到最终的SFT-RL混合范式优化,实现性能阶梯式跃升。

AI视觉语言模型抖音AI新加坡国立大学
Granite-Docling-258M:IBM轻量级视觉语言模型

Granite-Docling-258M模型支持阿拉伯语、中文、日语等多语言处理,并创新性采用DocTags格式精准描述文档结构,搭配与Docling库的无缝集成能力,赋予用户强大的定制化空间与错误处理机制,成为企业级文档智能化升级的高效利器。

AI视觉语言模型IBM模型
Helix:一款由Figure AI发布的新型通用视觉语言动作(VLA)模型

一款由Figure AI发布的新型VLA(视觉-语言-动作)模型,能够通过自然语言指令控制人形机器人的动作。它支持全上半身控制,实现高精度动作协调,还支持多机器人协作。

AI视觉语言模型人形机器人
一款由浙大阿里巴巴等多家机构联合开发的先进医学视觉语言模型——HealthGPT

HealthGPT一款由浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进医学视觉语言模型(Med-LVLM),它能够处理多种医学图像(如X光、CT、MRI等),并提供诊断建议、视觉问答和医学文本生成等功能。

AI医学AI视觉语言模型