
FireRedASR2S是小红书Super Intelligence – AudioLab开源的工业级端到端语音识别模型,一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块,实现从音频到可读文本的全链路高精度处理。
模型支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别;中文普通话字错率低至2.89%,方言平均字错率11.55%,综合指标全面超越Doubao – ASR、Qwen3 – ASR等主流方案。支持一键本地私有化部署,无需依赖外部API,已在小红书语音评论、语音搜索等核心场景稳定规模化落地。

FireRedASR2S核心功能:
1、语音识别(FireRedASR2):
– 支持普通话、20+方言/口音、英语、中英混杂及歌词识别
– 提供LLM版(依托大模型能力实现端到端语音语义理解)与AED版双架构(优化推理效率,输出字级别时间戳与置信度)。
2、语音活动检测(FireRedVAD):
– 精准区分语音、歌声、音乐三类音频事件
– 支持100+语言,提供流式/非流式两种模式
– F1分数达97.57%,兼顾实时性与稳定性
3、语种识别(FireRedLID):
– 支持100+语言+20+中文方言全覆盖
– 识别准确率97.18%,显著优于Whisper等开源方案
4、智能标点预测(FireRedPunc):
– 自动为中英文文本补全标点符号
– 平均F1分数78.90%,显著提升转写文本可读性与后处理效率
FireRedASR2S技术原理:
1、语音识别(FireRedASR2):
采用Encoder – Adapter – LLM与Attention – based Encoder – Decoder双架构:
– LLM版本:以大语言模型实现深度语义理解
– AED版本:在经典编解码结构上优化速度与精度,通过适配器融合语音与文本特征,输出细粒度时间戳与置信度
2、语音活动检测(FireRedVAD):
基于DFSMN深度前馈序列记忆网络建模时序音频特征,结合平滑窗口与自适应阈值判定语音起止点,支持流式低延迟处理。
3、语种识别(FireRedLID):
复用FireRedASR2编码器提取统一语音表征,在大规模多语言数据上预训练,构建跨语种共享特征空间,实现多语言/多方言高精度分类。
4、标点预测(FireRedPunc):
基于BERT架构,对无标点文本进行句法与语义建模,在中英多领域数据上微调,自动预测并插入标准标点。
FireRedASR2S应用场景:
1、内容社区互动:
支撑语音评论、语音搜索等场景,支持方言、歌声等多样化输入,提升社区真实感与趣味性。
2、社交与通讯:
用于语音私信、语音拜年等场景,实现流畅语音转文字,降低输入门槛,强化情感表达。
3、内容创作生产:
支持语音发笔记、直播字幕、视频自动字幕等工具链,大幅提升创作者生产效率。
4、企业级服务:
适用于会议转写、智能客服、通话分析等B端场景,支持私有化部署,满足金融、医疗等高合规行业数据安全要求。
Voxtral Mini 4B Realtime 2602:Mistral AI正式开源的实时流式语音识别模型
FireRed-Image-Edit模型官网入口,小红书Super Intelligence团队开源的通用图像编辑模型
FireRed-Image-Edit模型使用入口,小红书出品通用图像编辑模型,打破专业修图门槛
OpenStoryline官网使用入口,小红书开源的具备导演思维的视频剪辑Agent
Qwen3-ASR:阿里云通义千问团队开源的语音识别模型系列
上面是“FireRedASR2S模型使用入口,支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。
当前网址:https://m.ipkd.cn/webs_31293.html
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

帝国cms如何调用循环子栏目数据标签(listsonclass
JavaScript不等于!=和!==的区别
斑马口语APP最新版
一款快速开发后中后台系统框架——Bag-Admin