Alpamayo-R1:英伟达推出的自动驾驶视觉-语言-动作(VLA)模型

Alpamayo-R1是英伟达研发的视觉-语言-动作模型,模型核心创新涵盖三大维度:构建因果链(CoC)高质量推理轨迹数据集、采用具备物理常识与具身推理能力的Cosmos-Reason作为VLM骨干网络、设计“监督微调+强化学习”多阶段训练策略。

动作模型英伟达视觉模型
CoF:DeepMind 提出的视频模型时空推理新范式

CoF是DeepMind推出的视觉推理新概念,类比语言模型领域的链式思维技术。这一范式赋予视频模型跨时间与空间的推理能力,通过逐帧生成连贯视频序列的方式,解决复杂视觉任务。

DeepMind视觉模型