FlowAct-R1是字节跳动推出的实时交互数字人视频生成框架,该框架凭借分块扩散强制策略、多模态大语言模型等核心技术,实现1.5秒首帧低延迟与25fps稳定实时响应,可精细调控数字人面部表情和肢体动作。
ViMax是香港大学数据科学实验室研发的端到端多智能体视频生成框架,框架创新性整合导演、编剧、制片人及视频生成器的核心职能,支持Idea2Video、Novel2Video、Script2Video、AutoCameo四大生成模式。
LONGLIVE是英伟达等顶尖机构联合推出的实时交互式长视频生成框架,针对长视频生成的效率与质量双重瓶颈,创新融合帧级自回归模型、KV-recache机制、流式长视频微调技术及短窗口注意力+帧汇入策略,构建起高性能的长视频生成链路。
StoryMem是字节跳动与南洋理工大学联合研发的开源多镜头视频生成框架,核心解决AI视频生成领域长期存在的跨镜头一致性痛点。它创新性地引入显式视觉记忆机制,将传统单镜头视频扩散模型升级为专业多镜头叙事工具;
OmniHuman是字节跳动推出的端到端多模态数字人视频生成框架,上传1张静态照片+音频即可实时合成高自然度说话唱歌视频,支持全身、半身、卡通任意比例输入,口型误差<0.1秒,可一键下载,面向虚拟主播、短视频、影视动画、在线教育、游戏NPC等场景开放体验。
Phantom是一款由字节跳动推出的先进AI视频生成工具,它能够通过单张或多张参考图像生成高质量的视频内容。它通过跨模态对齐技术,实现了主体一致性的视频生成,能够精准复刻人物、物品、动物等主体的细节。
AnyCharV是一个高效、灵活且易于使用的视频生成框架,特别适合需要快速进行视频编辑的用户。其无需训练的特点和对现有工具的支持使其成为视频编辑领域的有力工具。
CineMaster是一款由快手科技联合大连理工大学和香港中文大学共同推出的具备3D感知能力的文本到视频生成框架,类似于视频版的ControlNet。