FlowAct-R1是字节跳动推出的实时交互数字人视频生成框架,该框架凭借分块扩散强制策略、多模态大语言模型等核心技术,实现1.5秒首帧低延迟与25fps稳定实时响应,可精细调控数字人面部表情和肢体动作。
MagicArena是字节跳动推出的国内首个视觉生成大模型对战平台,平台支持用户输入文字提示词,一键调用Midjourney、FLUX、可灵、海螺、即梦等国内外主流视觉生成大模型,同步生成图片或视频内容。
Seed Prover 1.5是字节跳动Seed团队研发的新一代形式化数学推理模型,该模型创新性采用Agentic Prover架构,依托大规模强化学习(Agentic RL)完成训练,实现数学推理能力与效率的双重跃升。
Seedance 1.5 Pro是字节跳动Seed团队研发的原生音画同步多模态视频生成模型,支持通过文本指令生成高质量视频内容,覆盖多语言、多方言及多样人声与音效。
Vidi2是字节跳动推出的专注于视频理解与创作的多模态大语言模型,模型可基于文本查询,精准识别视频对应时间戳并标记目标对象边界框,还创新引入VUE-STG、VUE-TR-V2两大基准测试,为STG能力评估提供更科学的标准。
InfinityStar是字节跳动推出的高效视频生成模型,该模型支持文本到图像、文本到视频、图像到视频及长时间交互视频合成等多类任务,且所有代码与模型均已开源。
Ouro是字节跳动Seed团队联合多家机构研发的循环语言模型,其名称源自象征循环与自迭代的“衔尾蛇”。该模型突破传统语言模型“预训练+微调”的能力构建范式,通过在潜在空间的迭代计算,将推理能力直接融入预训练阶段。
Seed3D 1.0是字节跳动Seed团队研发的3D生成大模型,支持从单张图像直接生成高精度3D模型,凭借高保真资产生成、物理引擎深度兼容、可扩展场景组合三大核心优势,为3D内容生产、物理仿真、具身智能训练等领域提供高效解决方案。
豆包语音2.0是字节跳动推出的升级版AI语音模型,该模型包含三大核心组件:Doubao-Seed-ASR-2.0、Doubao-Seed-TTS 2.0和Doubao-Seed-ICL 2.0,从“听得准、说得好、仿得像”三大维度全面升级。
Mini-o3在VisualProbe、V* Bench等多个权威视觉搜索基准测试中斩获SOTA(State-of-the-Art)性能,全套代码、预训练模型及数据集已完全开源,为全球研究者提供可复现、可拓展的技术底座。
Doubao-Seed-Translation是字节跳动团队研发的先进多语言翻译模型,支持28种语言双向互译,覆盖中英、日韩、德法等主流语种,凭借卓越的翻译性能,成为跨语言沟通的高效助手。
MagicEdit是字节跳动推出的一款智能视频编辑工具,核心技术亮点在于精准区分视频的外观与动作特征,实现高保真度、时间连贯性的视频编辑,让用户对视频内容和流畅度的控制达到更精细的级别。
DiffusionGPT是字节跳动研发的大语言模型驱动型文本生成图像多合一系统,核心目标是精准解析各类文本提示,智能匹配最优图像生成模型,输出高质量、高契合度的图像内容。