豆包语音大模型系列之AI说书

101 ℃

豆包语音大模型系列中的AI说书功能,是基于豆包语音模型团队的最新技术成果。该功能通过改进的Seed-TTS框架,实现了高表现力、高自然度、高语义理解的小说演播效果,声音合成质量媲美真人。

豆包语音大模型系列之AI说书

主要功能特点:

1、无需额外标签的端到端合成

– 传统的小说 TTS 合成方式需要提前给对话旁白、情感、角色打标签,而豆包语音模型可以做到端到端合成,无需额外标签标注。

2、改进的 Seed-TTS 技术

– 在数据处理上,音频做章节级别处理,保证了长文下的语音一致性和连贯性。

– 在特征融合上,结合原始文本和前端信息,提升发音和韵律的自然度。

– 在结构上,将 speech tokenizer 改为 speaker embedding,解除 reference audio 对语音风格的限制,使同一个发音人能在不同角色上作出更贴合人设的演绎。

– 在目标合成文本之外,额外加入上下文信息,使得模型能够感知更大范围的语义信息,旁白和角色音表现更精准到位。

3、高表现力和自然度

– 经过专业评测,优化后的豆包语音模型在小说演播场景中,CMOS(Comparative Mean Opinion Score)已达一流主播的 90%+ 效果。

4、多角色演绎和情感表达

– 模型能够精确表达角色情感,区分不同角色的音色和情感,实现连续多轮对话,保证角色区分鲜明。

5、技术落地与应用

– 以王明军、李满超两位演播圈大咖的声音为基础,采用新技术合成的千部有声书已上线番茄小说,覆盖历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型。

进入豆包实时语音大模型官网入口

BFS-Prover:字节跳动豆包团队推出的高效自动定理证明系统

一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

Doubao-1.5-pro:一款由豆包团队开发的高性能稀疏 MoE大语言模型

RSS翻译器

TIGER:一款由清华大学研发的轻量级语音分离模型

标签: AI说书, 语音大模型, 豆包AI

上面是“豆包语音大模型系列之AI说书”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_18014.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

axios.defaults.baseURL如何实现一个页面调用多个bas
帝国cms前台会员发送消息使用编辑器的方法
织梦DedeCms实现无限数量的交叉副栏目的方法
如何利用Vue和网易云API开发一款个性化音乐
vue2项目使用预渲染prerender-spa-plugin插件解决seo优化