OmniHuman:字节推出的一款端到端的多模态数字人视频生成框架

OmniHuman是字节跳动推出的端到端多模态数字人视频生成框架,上传1张静态照片+音频即可实时合成高自然度说话唱歌视频,支持全身、半身、卡通任意比例输入,口型误差<0.1秒,可一键下载,面向虚拟主播、短视频、影视动画、在线教育、游戏NPC等场景开放体验。

字节跳动框架数字人生成框架视频生成框架