语音识别模型 - web建站教程手机端

返回语音识别模型

: FireRedASR2S模型使用入口，支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别; FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型，一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块，实现从音频到可读文本的全链路高精度处理。; 小红书开源语音识别模型

: Voxtral Mini 4B Realtime 2602：Mistral AI正式开源的实时流式语音识别模型; Voxtral-Mini-4B-Realtime-2602是Mistral AI正式开源的实时流式语音识别模型，仅40亿参数，即可在保持高精度的前提下，实现500ms以内超低延迟，并原生支持中文等13种语言。; HuggingFace模型库 Mistral AI 语音识别模型

: Qwen3-ASR：阿里云通义千问团队开源的语音识别模型系列; Qwen3-ASR是阿里云通义千问团队开源的语音识别模型系列，模型支持52个语种与方言识别、流式/非流式一体化推理，在强噪声、快语速、歌唱等复杂场景下表现稳定鲁棒——1.7B模型在中英文及方言识别领域达开源SOTA水平，0.6B模型可支持128并发、2000倍吞吐，10秒即可处理5小时音频，兼顾精度与效率需求。; Qwen3基础架构语音识别模型阿里通义

: VibeVoice-ASR：微软开源专为长达60分钟的长音频语音识别模型; VibeVoice-ASR是微软推出的开源先进语音识别模型，专为长达60分钟的长音频处理打造。该模型可一次性完成整段音频转录，全程保留全局上下文信息，彻底规避传统分段处理导致的上下文断裂问题。; 微软开源模型语音识别模型

: FunAudio-ASR：阿里达摩院出品，企业级语音识别痛点的端到端大模型; FunAudio-ASR是阿里巴巴达摩院研发的端到端语音识别大模型，聚焦企业落地场景中的核心痛点，通过创新的Context增强模块，从根源上优化了语音识别领域的“幻觉”“串语种”等行业难题。; 端到端大模型语音识别模型阿里达摩院

: Nemotron Speech ASR：英伟达开源低延迟流式语音识别模型，24毫秒实现单句转录锁定; Nemotron Speech ASR是英伟达推出的开源实时流式语音识别模型，专为低延迟语音交互场景打造。依托创新的缓存感知架构，模型可缓存已处理语音特征，仅对新音频帧执行增量计算，实现单句转录锁定仅需24毫秒，彻底解决传统流式模型在长语音识别中的累积延迟难题。; 英伟达语音识别模型

: MedASR模型：Google推出的一款专注于医学领域的语音识别模型; MedASR支持根据特定医疗场景需求进一步微调优化。通过将医学语音高效转化为结构化文本，MedASR为医疗领域数字化应用搭建核心技术支撑，助力提升医疗服务效率与智能化水平。; AI医学助手语音识别模型谷歌AI