Qwen3-ASR:阿里云通义千问团队开源的语音识别模型系列

Qwen3-ASR是阿里云通义千问团队开源的语音识别模型系列,模型支持52个语种与方言识别、流式/非流式一体化推理,在强噪声、快语速、歌唱等复杂场景下表现稳定鲁棒——1.7B模型在中英文及方言识别领域达开源SOTA水平,0.6B模型可支持128并发、2000倍吞吐,10秒即可处理5小时音频,兼顾精度与效率需求。

Qwen3基础架构语音识别模型阿里通义
VibeVoice-ASR:微软开源专为长达60分钟的长音频语音识别模型

VibeVoice-ASR是微软推出的开源先进语音识别模型,专为长达60分钟的长音频处理打造。该模型可一次性完成整段音频转录,全程保留全局上下文信息,彻底规避传统分段处理导致的上下文断裂问题。

微软开源模型语音识别模型
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型

FunAudio-ASR是阿里巴巴达摩院研发的端到端语音识别大模型,聚焦企业落地场景中的核心痛点,通过创新的Context增强模块,从根源上优化了语音识别领域的“幻觉”“串语种”等行业难题。

端到端大模型语音识别模型阿里达摩院
Nemotron Speech ASR:英伟达开源低延迟流式语音识别模型,24毫秒实现单句转录锁定

Nemotron Speech ASR是英伟达推出的开源实时流式语音识别模型,专为低延迟语音交互场景打造。依托创新的缓存感知架构,模型可缓存已处理语音特征,仅对新音频帧执行增量计算,实现单句转录锁定仅需24毫秒,彻底解决传统流式模型在长语音识别中的累积延迟难题。

英伟达语音识别模型
MedASR模型:Google推出的一款专注于医学领域的语音识别模型

MedASR支持根据特定医疗场景需求进一步微调优化。通过将医学语音高效转化为结构化文本,MedASR为医疗领域数字化应用搭建核心技术支撑,助力提升医疗服务效率与智能化水平。

AI医学助手语音识别模型谷歌AI