KaniTTS2模型使用入口,NineNineSix正式开源的新一代TTS模型

57 ℃
Trae:新一代免费的AI编程工具

KaniTTS2是AI初创公司NineNineSix正式开源的新一代文本转语音(TTS)模型,专为低延迟、高自然度的实时对话场景量身打造。该模型支持语音克隆、多语言输出,同时提供完整的从零预训练代码框架,助力开发者基于自有数据快速训练定制化TTS模型

KaniTTS2模型使用入口,NineNineSix正式开源的新一代TTS模型

KaniTTS2核心定位:

1、低推理延迟:RTX 5090实测实时因子(RTF)约0.2,即生成1秒语音仅需0.2秒,满足实时交互需求;

2、低显存占用:仅需3GB GPU显存,可流畅运行于消费级显卡,降低部署门槛;

3、高采样质量:采用22kHz采样率,在音质表现与运行效率之间实现最优平衡。

KaniTTS2语言与模型核心能力:

1、支持语言:目前已覆盖英语(含本地口音变体)、西班牙语、吉尔吉斯语;

2、语音克隆:支持少量样本(few-shot)驱动的说话人音色复现,还原度高;

3、模型规模:4亿参数,精准平衡语音生成效果与运行效率;

4、训练数据:基于约1万小时高质量语音完成预训练,保障基础音质;

5、训练效率:8张H100显卡并行训练,仅需6小时即可完成全量训练,大幅缩短研发周期。

KaniTTS2关键技术特性:

1、LFM2混合架构:融合LLM与FSQ(因子化标量量化)音频编解码器,兼顾语音质量与生成速度;

2、帧级位置编码:同一音频帧内4个token共享位置ID,有效减少RoPE距离衰减,显著提升长语音连贯性;

3、FlashAttention-2优化:训练速度较标准attention提升10–20倍,提升训练效率;

4、FSDP多GPU支持:通过全分片数据并行技术,实现高效分布式训练,适配大规模部署;

5、模块化OOP设计:代码结构清晰、逻辑严谨,便于开发者扩展与二次开发;

6、YAML配置驱动:所有超参数、文件路径、模型结构均通过YAML文件统一管理,无需修改核心代码,降低使用门槛。

KaniTTS2核心应用场景:

1、AI智能体语音输出:如OpenClaw、TinyClaw等智能体的语音前端适配;

2、多语言客服机器人:依托多语言支持能力,实现跨语言智能客服交互;

3、个性化语音助手:结合语音克隆功能,打造专属音色的智能助手;

4、教育/无障碍工具:用于实时文本朗读、外语发音辅助等场景;

5、游戏NPC对话生成:低延迟特性适配游戏实时交互,提升NPC对话沉浸感。

KaniTTS2相关网址:

1、GitHub:https://github.com/nineninesix-ai/kani-tts-2

2、模型:https://huggingface.co/nineninesix/kani-tts-2-pt

3、Demo:https://huggingface.co/spaces/nineninesix/kani-tts-2-pt

进入KaniTTS2模型官网入口

ComfyUI-Qwen-TTS插件安装入口,一站式文本转语音、声音克隆、声音风格设计与多角色对话合成

Qwen3-TTS-Flash:开源语音合成模型,49种音色+10种语言+9种方言

ChatTTS:对话场景专属的高性能开源文本转语音模型

Indic Parler:多语言TTS神器,21种语言、69种语音,一键生成自然流畅语音!

标签: NineNineSix, TTS模型, 文本转语音模型

上面是“KaniTTS2模型使用入口,NineNineSix正式开源的新一代TTS模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_31071.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具!生活小工具

猜你喜欢