KaniTTS2模型使用入口，NineNineSix正式开源的新一代TTS模型

KaniTTS2是AI初创公司NineNineSix正式开源的新一代文本转语音（TTS）模型，专为低延迟、高自然度的实时对话场景量身打造。该模型支持语音克隆、多语言输出，同时提供完整的从零预训练代码框架，助力开发者基于自有数据快速训练定制化TTS模型。

1、低推理延迟：RTX 5090实测实时因子（RTF）约0.2，即生成1秒语音仅需0.2秒，满足实时交互需求；

2、低显存占用：仅需3GB GPU显存，可流畅运行于消费级显卡，降低部署门槛；

3、高采样质量：采用22kHz采样率，在音质表现与运行效率之间实现最优平衡。

1、支持语言：目前已覆盖英语（含本地口音变体）、西班牙语、吉尔吉斯语；

2、语音克隆：支持少量样本（few-shot）驱动的说话人音色复现，还原度高；

3、模型规模：4亿参数，精准平衡语音生成效果与运行效率；

4、训练数据：基于约1万小时高质量语音完成预训练，保障基础音质；

5、训练效率：8张H100显卡并行训练，仅需6小时即可完成全量训练，大幅缩短研发周期。

1、LFM2混合架构：融合LLM与FSQ（因子化标量量化）音频编解码器，兼顾语音质量与生成速度；

2、帧级位置编码：同一音频帧内4个token共享位置ID，有效减少RoPE距离衰减，显著提升长语音连贯性；

3、FlashAttention-2优化：训练速度较标准attention提升10–20倍，提升训练效率；

4、FSDP多GPU支持：通过全分片数据并行技术，实现高效分布式训练，适配大规模部署；

5、模块化OOP设计：代码结构清晰、逻辑严谨，便于开发者扩展与二次开发；

6、YAML配置驱动：所有超参数、文件路径、模型结构均通过YAML文件统一管理，无需修改核心代码，降低使用门槛。

1、AI智能体语音输出：如OpenClaw、TinyClaw等智能体的语音前端适配；

2、多语言客服机器人：依托多语言支持能力，实现跨语言智能客服交互；

3、个性化语音助手：结合语音克隆功能，打造专属音色的智能助手；

4、教育/无障碍工具：用于实时文本朗读、外语发音辅助等场景；

5、游戏NPC对话生成：低延迟特性适配游戏实时交互，提升NPC对话沉浸感。

1、GitHub：https://github.com/nineninesix-ai/kani-tts-2

2、模型：https://huggingface.co/nineninesix/kani-tts-2-pt

3、Demo：https://huggingface.co/spaces/nineninesix/kani-tts-2-pt

上面是“KaniTTS2模型使用入口，NineNineSix正式开源的新一代TTS模型”的全面内容，想了解更多关于 AI项目和框架 内容，请继续关注web建站教程。

当前网址：https://m.ipkd.cn/webs_31071.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！