VTP预训练框架:一款MiniMax视频团队开源的视觉生成模型

VTP是MiniMax 视频团队研发的开源视觉生成模型预训练框架,核心聚焦视觉tokenizer的深度优化,通过融合对比学习、自监督学习与重建学习等多元训练范式,从头预训练出更具结构化、易学性的latent表示。

MiniMax视频视觉生成模型预训练框架