SigLIP 2:一款基于视觉语言模型PaliGemma的视觉编码器

113 ℃

SigLIP 2是Google DeepMind 提出的一种新型的多语言视觉-语言编码器,基于原始 SigLIP 的成功进行了改进和扩展。它通过结合多种先进的预训练技术和自监督损失函数(如自蒸馏、掩码预测等),以及在线数据筛选,显著提升了模型在多语言视觉-语言任务中的性能。

SigLIP 2:一款基于视觉语言模型PaliGemma的视觉编码器

SigLIP 2功能特点:

1、多语言支持

SigLIP 2 在多语言视觉-语言任务中表现出色,支持多种语言的零样本分类和图像-文本检索任务。

2、改进的训练方法

通过引入基于字幕的预训练、自监督损失函数(如自蒸馏和掩码预测)以及在线数据筛选,SigLIP 2 在零样本分类、图像-文本检索和视觉-语言模型(VLM)的特征提取方面超越了原始 SigLIP。

3、多分辨率支持

SigLIP 2 提供了多种分辨率的训练变体,并保留了输入图像的原始宽高比,特别适用于文档理解和屏幕内容等对宽高比敏感的应用。

4、密集特征提取

通过结合自监督损失和基于解码器的损失函数,SigLIP 2 在密集特征提取任务(如分割和深度估计)中表现出色,同时在定位任务(如指代表达理解)中也有显著提升。

5、模型规模多样化

为了平衡推理成本和性能,SigLIP 2 提供了四种不同规模的模型检查点:ViT-B(86M)、L(303M)、So400m(400M)和 g(1B)。

6、反向兼容性

SigLIP 2 与原始 SigLIP 保持架构兼容,用户可以简单地替换模型权重和分词器(现在支持多语言),从而在多种任务中获得性能提升。

7、去偏技术

SigLIP 2 在训练中采用了去偏技术,以减少文化多样性数据中的偏差,从而实现更平衡的性能。

进入SigLIP 2 GitHub仓库官网入口

Wiz:一家以色列云安全新锐AI企业

一款由谷歌推出的多模态生成模型,可以轻松去除图片水印——Gemini 2.0 Flash

Gemini Code Assist:谷歌推出的一款AI代码辅助工具

Google Veo 2:谷歌DeepMind开发的最新一代AI视频生成模型

一款由谷歌公司推出的 AI 求职工具——Career Dreamer

标签: AI视觉编码器, DeepMind, 谷歌AI

上面是“SigLIP 2:一款基于视觉语言模型PaliGemma的视觉编码器”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_17777.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

js给一个数如何计算出最大公约数
javascript如何获取实时股票数据
layui闭站了,去哪里找layui框架
bootstrap如何动态绑定数据
Varlet UI移动端UI组件库中文文档官网介绍