通义万相2.2：开源Wan2.2-T2V-A14B、Wan2.2-I2V-A14B和Wan2.2-IT2V-5B三款模型

通义万相2.2（Wan2.2）是由阿里巴巴达摩院推出的一款先进的大规模视频生成模型。它是通义万相系列的最新版本，旨在通过人工智能技术帮助用户快速生成高质量的视频内容。通义万相2.2在视频生成领域引入了多项创新技术，显著提升了生成视频的质量和效率。

通义万相2.2

通义万相2.2功能特点：

1、混合专家架构（MoE）：

有效扩展模型容量：通义万相2.2引入了混合专家（MoE）架构，通过在不同时间步长上分离去噪过程，使用专门的强专家模型，显著提升了模型的整体容量，同时保持了相同的计算成本。

高噪声和低噪声专家：模型分为高噪声专家和低噪声专家，分别处理去噪过程的早期和后期阶段，确保生成的视频在整体布局和细节上都表现出色。

2、电影级美学：

精心策划的美学数据：通义万相2.2纳入了精心策划的美学数据，包括详细的标签，如照明、构图、对比度、色调等，支持更精确和可控制的电影风格生成，帮助用户创建具有定制美学偏好的视频。

3、复杂运动生成：

大规模数据训练：与通义万相2.1相比，通义万相2.2在训练数据上进行了显著扩展，图像数量增加了65.6%，视频数量增加了83.2%。这显著提升了模型在多个维度（如运动、语义和美学）上的泛化能力，使其在所有开源和闭源模型中表现卓越。

4、高效高清混合TI2V：

高压缩比的VAE：通义万相2.2开源了一个5B模型，使用先进的Wan2.2-VAE，实现了16×16×4的压缩比。该模型支持720P分辨率、24fps的文本到视频（T2V）和图像到视频（I2V）生成，并且可以在消费级显卡（如4090）上运行。它是目前最快的720P@24fps模型之一，能够同时服务于工业和学术领域。

5、多GPU推理支持：

FSDP+DeepSpeed Ulysses：通义万相2.2支持使用PyTorch FSDP和DeepSpeed Ulysses加速推理，显著提升了多GPU推理的效率。

6、提示词扩展：

增强生成细节：通过扩展提示词，可以有效丰富生成视频的细节，进一步提升视频质量。通义万相2.2提供了两种提示词扩展方法：使用Dashscope API或本地模型进行扩展。

7、社区支持：

ComfyUI和Diffusers集成：通义万相2.2的T2V、I2V和TI2V功能已经集成到ComfyUI和Diffusers中，方便用户使用。

8、开源模型权重：

模型权重和推理代码：通义万相2.2开源了模型权重和推理代码，用户可以下载并使用这些模型进行视频生成。