daVinci-MagiHuman是由上海创智学院GAIR实验室与Sand.ai联合开源的多模态统一生成模型。模型采用15B参数单流Transformer架构,统一建模文本、视频、音频三大模态,无需跨注意力机制。
Qwen3-LiveTranslate是阿里通义团队研发的大语言模型驱动型多语言实时音视频同传系统,支持18种主流语言及多地方言的精准翻译,创新性融合视觉增强技术,通过捕捉口型、动作等多模态信息,大幅提升复杂场景下的翻译准确性。