SoulX-Singer模型官网使用入口,工业级零样本歌声合成模型

SoulX-Singer是工业级零样本歌声合成模型,核心优势为零样本克隆、双模式控制、跨语言合成,性能领先开源方案;技术层面依托Flow Matching架构、显式多模态对齐等创新,兼顾生成效率与自然度;核心适配虚拟歌手打造、音乐二创、专业创作辅助、个性化娱乐等场景。

Soul App开源天津大学歌声合成模型AI西北工业大学
VoiceSculptor:西北工业大学、语图智能等机构推出的音色设计模型

VoiceSculptor是由西北工业大学、语图智能联合推出的前沿音色设计模型,支持对音色的性别、年龄、语速、音调、音量及情感等核心属性进行灵活调校,并融合检索增强生成(RAG)技术强化复杂指令理解能力。

西北工业大学语图智能
一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

OSUM支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。

西北工业大学语音大模型