UniVG：百度团队研发的AI视频生成系统，支持文本、图像组合输入

UniVG是百度团队研发的多条件驱动统一AI视频生成系统，核心突破在于支持文本、图像的任意组合输入，可灵活适配不同自由度的视频生成需求，有效解决传统视频生成模型仅能处理单一任务、单一输入的局限性。

1、双模式自由度生成：

– 高自由度视频生成：

采用多条件交叉注意力机制，可基于文本或图像输入，生成与输入语义高度一致的创意视频内容。

– 低自由度视频生成：

创新性引入偏置高斯噪声替代完全随机噪声，在保留输入条件核心内容的基础上完成视频生成，精准还原输入素材的细节特征。

2、多任务统一处理架构：

将视频生成任务重新划分为高、低自由度两类，通过一套系统即可覆盖文本到视频、图像到视频、文本-图像结合到视频等多元生成需求，无需针对不同任务单独适配模型。

3、扩散模型技术底座：

依托在学术与工业界均验证有效的扩散模型技术，保障视频生成的稳定性与高质量输出。

1、输入方式灵活多元：

支持文本、图像的单独或组合输入，满足多样化的创作需求，适配从创意构思到精准复刻的全场景视频生成。

2、生成质量行业领先：

在MSR-VTT标准数据库测评中实现最低的Fréchet Video Distance（FVD）值；人类主观评估结果显示，其效果超越主流开源方案，可与闭源标杆模型Gen2相媲美。

3、广泛的行业适配性：

为内容创作、广告营销、影视娱乐等领域提供高效的视频生产方案，既能快速生成创意宣传视频，也能基于参考图像完成风格化内容创作，推动AI视频生成技术向更灵活、更高质的方向落地。

当前网址：https://m.ipkd.cn/webs_28453.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！