Gemini 2.5 Computer Use:让AI自主操控浏览器的智能自动化工具

Gemini 2.5 Computer Use是谷歌DeepMind基于Gemini 2.5大模型打造的智能计算机操作模型,突破性实现AI对浏览器的直接控制,可自主执行点击、滚动、输入等交互动作。依托强大的视觉理解与逻辑推理能力,模型能精准

AI自动化工具DeepMindGemini谷歌AI
CoF:DeepMind 提出的视频模型时空推理新范式

CoF是DeepMind推出的视觉推理新概念,类比语言模型领域的链式思维技术。这一范式赋予视频模型跨时间与空间的推理能力,通过逐帧生成连贯视频序列的方式,解决复杂视觉任务。

DeepMind视觉模型
SigLIP 2:一款基于视觉语言模型PaliGemma的视觉编码器

SigLIP 2是谷歌公司推出的一款基于视觉语言模型PaliGemma的视觉编码器,主要用于处理图像和视频等视觉数据。它通过将图像划分为补丁并线性嵌入向量,结合文本编码器将文本转换为稠密嵌入,从而实现零样本分类和跨模态任务的能力。

AI视觉编码器DeepMind谷歌AI