MOVA模型:中国首个高性能开源音视频端到端生成模型

68 ℃
Trae:新一代免费的AI编程工具

MOVA是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的中国首个高性能开源音视频端到端生成模型。模型突破传统视频“静音”局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互;拥有320亿参数(MoE架构,推理激活180亿),可同步生成长达8秒、720p分辨率的视频与配套音频,在电影级口型同步、环境音效契合度上表现卓越。

MOVA模型:中国首个高性能开源音视频端到端生成模型

MOVA主要功能:

1、端到端音视频生成

模型可一次性同步输出视频与配套音频,彻底告别“哑巴视频”。

2、双模式驱动生成

支持图像+文本、纯文本两种输入模式,灵活把控音视频生成内容。

3、电影级口型同步

精准匹配人物说话时的嘴型与语音,完美支持中英文多人物对话场景。

4、智能环境音效

可根据画面场景,自动合成匹配的背景音乐、动作声与环境音,提升视听体验。

5、视频文字渲染

能在画面指定位置,生成清晰可读的动态文字内容,丰富视频呈现形式。

6、高分辨率输出

模型最高支持720p分辨率、8秒时长的视听片段生成,兼顾画质与时长需求。

MOVA技术原理:

1、异构双塔架构

采用14B视频扩散模型与1.3B音频扩散模型,分别独立处理视觉与听觉信息;通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合,让画面生成全程感知声音节奏。

2、跨模态时间对齐

针对视频与音频采样密度差异大的问题,依托Aligned ROPE机制,通过精确的缩放比例映射,将两种模态的Token统一到同一物理时间坐标系,从根源上消除音画不同步问题。

3、渐进式训练策略

模型分三阶段由粗到细开展训练,先以360p低分辨率让随机初始化的桥接模块快速掌握音视频对齐能力,逐步提升对齐稳定性,最后扩展到720p高分辨率进行画质精修。

4、双重CFG推理

针对音视频联合生成存在文本指令、模态桥接两个控制源的特点,支持独立调节两者的引导权重,可在一般场景保障画面质量,在对话场景强化口型精准度。

MOVA应用场景:

1、影视制作

可快速生成分镜预览与配音小样,有效降低前期制作成本,大幅加速创意验证效率。

2、短视频创作

为创作者提供带音效的高质量剧情素材,提升内容产出效率,丰富短视频创作形式。

3、游戏开发

自动生成过场动画与角色对话,打造音画同步的沉浸式游戏体验,显著缩短开发周期。

4、教育培训

制作多语言口型精准的教学视频,支持全球化内容适配,助力提升教学与学习效果。

5、电商营销

快速产出带解说与背景音乐的产品展示视频,加速营销内容迭代,增强产品转化能力。

进入MOVA官网入口

Chroma 1.0:FlashLabs推出的首款开源实时端到端语音对话模型

HunyuanOCR:腾讯混元推出的开源轻量级端到端OCR视觉语言模型

FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型

Qwen3-Omni:阿里通义团队推出业界首个原生端到端全模态AI模型

Fun-Audio-Chat:阿里云通义百聆团队新一代端到端的开源语音交互模型

标签: AI音视频模型, 端到端大模型

上面是“MOVA模型:中国首个高性能开源音视频端到端生成模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_29469.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具!生活小工具

猜你喜欢