Nemotron Speech ASR是英伟达推出的开源实时流式语音识别模型,专为低延迟语音交互场景打造。依托创新的缓存感知架构,模型可缓存已处理语音特征,仅对新音频帧执行增量计算,实现单句转录锁定仅需24毫秒,彻底解决传统流式模型在长语音识别中的累积延迟难题。
MedASR支持根据特定医疗场景需求进一步微调优化。通过将医学语音高效转化为结构化文本,MedASR为医疗领域数字化应用搭建核心技术支撑,助力提升医疗服务效率与智能化水平。