daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

daVinci-MagiHuman是由上海创智学院GAIR实验室与Sand.ai联合开源的多模态统一生成模型。模型采用15B参数单流Transformer架构,统一建模文本、视频、音频三大模态,无需跨注意力机制。

arXiv技术论文GAIR实验室GitHub仓库HuggingFace模型库音视频大模型
Qwen3-LiveTranslate:阿里通义多语言实时音视频同传模型

Qwen3-LiveTranslate是阿里通义团队研发的大语言模型驱动型多语言实时音视频同传系统,支持18种主流语言及多地方言的精准翻译,创新性融合视觉增强技术,通过捕捉口型、动作等多模态信息,大幅提升复杂场景下的翻译准确性。

Qwen3基础架构同传大模型阿里通义音视频大模型