Chroma 1.0:FlashLabs推出的首款开源实时端到端语音对话模型

Chroma 1.0是FlashLabs推出的首款开源实时端到端语音对话模型,该模型创新采用语音理解与生成紧密耦合架构,搭配1:2文本-音频token调度策略,可达成亚秒级输出;仅需几秒参考音频,就能精准复刻说话人音色,speaker相似度较人类基线提升10.96%。

端到端大模型语音对话模型
Sonic-3模型:一款Cartesia推出的实时语音对话模型

Sonic-3是Cartesia推出的新一代实时语音交互引擎,该引擎突破传统技术框架,在低延迟交互、多语言覆盖、智能上下文理解等核心能力上实现重大突破,同时提供灵活部署与企业级安全保障,赋能多领域语音交互场景创新。

语音AI引擎语音对话模型