Loopy是由字节跳动和浙江大学的研究团队共同开发的端到端音频驱动的肖像视频生成模型。它通过音频信号生成动态的肖像视频,能够实现音频与视觉内容的同步。
OmniHuman是字节跳动推出的端到端多模态数字人视频生成框架,上传1张静态照片+音频即可实时合成高自然度说话唱歌视频,支持全身、半身、卡通任意比例输入,口型误差<0.1秒,可一键下载,面向虚拟主播、短视频、影视动画、在线教育、游戏NPC等场景开放体验。
PhotoDoodle通过其创新的“位置编码克隆”技术和两阶段训练策略,为图像编辑领域带来了新的突破。它不仅能够高效地学习和复制艺术风格,还能在保持背景一致性的前提下,精准地添加装饰元素,为创意表达开辟了全新的可能性。
Doubao-1.5-pro模型使用 MoE 架构,并通过训练-推理一体化设计,探索模型性能和推理性能之间的极致平衡。Doubao-1.5-pro 仅用较小激活参数,即可超过一流超大稠密预训练模型的性能,并在多个评测基准上取得优异成绩。
HumanDiT 在包含 14000 小时高质量视频的大型数据集上进行训练,数据通过结构化的数据处理流程收集,涵盖了多种人类动作场景。
IconPark 图标库由字节CUX设计团队经过1年打磨,终于在2020年9月3日正式免费开源了。但翻了官网的说明,没有发现明确的说明可以免费用于商业用途,特意加入官方群咨询了相关负责人,得到了明确的回复:“可以免费商用。”