UniVG是百度团队研发的多条件驱动统一AI视频生成系统,核心突破在于支持文本、图像的任意组合输入,可灵活适配不同自由度的视频生成需求,有效解决传统视频生成模型仅能处理单一任务、单一输入的局限性。
Vidi2是字节跳动推出的专注于视频理解与创作的多模态大语言模型,模型可基于文本查询,精准识别视频对应时间戳并标记目标对象边界框,还创新引入VUE-STG、VUE-TR-V2两大基准测试,为STG能力评估提供更科学的标准。
可灵O1是可灵AI研发的全球首个统一多模态视频生成模型,模型支持图片、视频、文字等多模态输入,可一站式完成全能创作与编辑,精准解决视频生成中的主体一致性难题,解锁多元创意组合玩法。
HunyuanVideo 1.5是腾讯混元团队推出的开源轻量级视频生成模型,模型支持文生视频、图生视频双模式生成5-10秒高清内容,具备强大的指令理解能力,可精准复刻写实、动画等多元视觉风格。
InfinityStar是字节跳动推出的高效视频生成模型,该模型支持文本到图像、文本到视频、图像到视频及长时间交互视频合成等多类任务,且所有代码与模型均已开源。
Kandinsky 5.0是俄罗斯AI研究实验室AI-Forever研发的新一代文本到视频生成模型,兼具卓越生成质量与高效推理性能,在跨场景内容创作中展现出强劲竞争力。
Imagine v0.9是xAI公司推出的新一代视频生成模型,该模型可在20秒内生成6秒左右的高质量视频,支持精准运动控制、动态相机特效、自然对话与歌声合成,更配备语音优先交互界面,用户通过语音指令即可快速完成创作。
MotionAgent是一款端到端的深度学习模型工具,它整合了多模态AI模型的能力,为用户提供剧本创作、剧照生成、图生视频、背景音乐谱写的一站式创作流程,让创意无需专业技能即可轻松落地为可视化视频内容。