FireRedASR2S模型使用入口,支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别

56 ℃
Trae:新一代免费的AI编程工具

FireRedASR2S是小红书Super Intelligence – AudioLab开源的工业级端到端语音识别模型,一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块,实现从音频到可读文本的全链路高精度处理。

模型支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别;中文普通话字错率低至2.89%,方言平均字错率11.55%,综合指标全面超越Doubao – ASR、Qwen3 – ASR等主流方案。支持一键本地私有化部署,无需依赖外部API,已在小红书语音评论、语音搜索等核心场景稳定规模化落地。

FireRedASR2S模型使用入口,支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别

FireRedASR2S核心功能:

1、语音识别(FireRedASR2)

– 支持普通话、20+方言/口音、英语、中英混杂及歌词识别

– 提供LLM版(依托大模型能力实现端到端语音语义理解)与AED版双架构(优化推理效率,输出字级别时间戳与置信度)。

2、语音活动检测(FireRedVAD)

– 精准区分语音、歌声、音乐三类音频事件

– 支持100+语言,提供流式/非流式两种模式

– F1分数达97.57%,兼顾实时性与稳定性

3、语种识别(FireRedLID)

– 支持100+语言+20+中文方言全覆盖

– 识别准确率97.18%,显著优于Whisper等开源方案

4、智能标点预测(FireRedPunc)

– 自动为中英文文本补全标点符号

– 平均F1分数78.90%,显著提升转写文本可读性与后处理效率

FireRedASR2S技术原理:

1、语音识别(FireRedASR2)

采用Encoder – Adapter – LLM与Attention – based Encoder – Decoder双架构:

– LLM版本:以大语言模型实现深度语义理解

– AED版本:在经典编解码结构上优化速度与精度,通过适配器融合语音与文本特征,输出细粒度时间戳与置信度

2、语音活动检测(FireRedVAD)

基于DFSMN深度前馈序列记忆网络建模时序音频特征,结合平滑窗口与自适应阈值判定语音起止点,支持流式低延迟处理。

3、语种识别(FireRedLID)

复用FireRedASR2编码器提取统一语音表征,在大规模多语言数据上预训练,构建跨语种共享特征空间,实现多语言/多方言高精度分类。

4、标点预测(FireRedPunc)

基于BERT架构,对无标点文本进行句法与语义建模,在中英多领域数据上微调,自动预测并插入标准标点。

FireRedASR2S应用场景:

1、内容社区互动

支撑语音评论、语音搜索等场景,支持方言、歌声等多样化输入,提升社区真实感与趣味性。

2、社交与通讯

用于语音私信、语音拜年等场景,实现流畅语音转文字,降低输入门槛,强化情感表达。

3、内容创作生产

支持语音发笔记、直播字幕、视频自动字幕等工具链,大幅提升创作者生产效率。

4、企业级服务

适用于会议转写、智能客服、通话分析等B端场景,支持私有化部署,满足金融、医疗等高合规行业数据安全要求。

进入FireRedASR2S模型官网入口

Voxtral Mini 4B Realtime 2602:Mistral AI正式开源的实时流式语音识别模型

FireRed-Image-Edit模型官网入口,小红书Super Intelligence团队开源的通用图像编辑模型

FireRed-Image-Edit模型使用入口,小红书出品通用图像编辑模型,打破专业修图门槛

OpenStoryline官网使用入口,小红书开源的具备导演思维的视频剪辑Agent

Qwen3-ASR:阿里云通义千问团队开源的语音识别模型系列

标签: 小红书开源, 语音识别模型

上面是“FireRedASR2S模型使用入口,支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_31293.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具!生活小工具

猜你喜欢