Qwen3-TTS:阿里通义Qwen开源的系列语音生成模型

Qwen3-TTS是Qwen开源的系列语音生成模型,该模型基于自研的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,搭配Dual-Track双轨建模技术,实现高效语音压缩与极速生成;支持10种主流语言及多种方言,具备智能文本语义理解能力,可自适应调控语音的语气、节奏与情感。

AI音色定制GitHub仓库语音生成模型阿里通义
VoxCPM:0.5B轻量语音生成模型,重塑高保真实时语音合成体验

VoxCPM支持零样本声音克隆,仅需一段参考音频,即可精准复刻说话者的音色、口音、情感语调等细微特征,生成高度逼真的个性化语音。其推理效率同样表现卓越,在NVIDIA RTX 4090 GPU上实时因子(RTF)低至0.17,完美满足实时交互场景需求。

GitHub仓库清华大学语音生成模型面壁智能