返回AI项目和框架

FireRedASR2S模型使用入口，支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别

366 ℃

Trae：新一代免费的AI编程工具

FireRedASR2S是小红书Super Intelligence – AudioLab开源的工业级端到端语音识别模型，一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块，实现从音频到可读文本的全链路高精度处理。

模型支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别；中文普通话字错率低至2.89%，方言平均字错率11.55%，综合指标全面超越Doubao – ASR、Qwen3 – ASR等主流方案。支持一键本地私有化部署，无需依赖外部API，已在小红书语音评论、语音搜索等核心场景稳定规模化落地。

FireRedASR2S模型使用入口，支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别

FireRedASR2S核心功能：

1、语音识别（FireRedASR2）：

– 支持普通话、20+方言/口音、英语、中英混杂及歌词识别

– 提供LLM版（依托大模型能力实现端到端语音语义理解）与AED版双架构（优化推理效率，输出字级别时间戳与置信度）。

2、语音活动检测（FireRedVAD）：

– 精准区分语音、歌声、音乐三类音频事件

– 支持100+语言，提供流式/非流式两种模式

– F1分数达97.57%，兼顾实时性与稳定性

3、语种识别（FireRedLID）：

– 支持100+语言+20+中文方言全覆盖

– 识别准确率97.18%，显著优于Whisper等开源方案

4、智能标点预测（FireRedPunc）：

– 自动为中英文文本补全标点符号

– 平均F1分数78.90%，显著提升转写文本可读性与后处理效率

FireRedASR2S技术原理：

1、语音识别（FireRedASR2）：

采用Encoder – Adapter – LLM与Attention – based Encoder – Decoder双架构：

– LLM版本：以大语言模型实现深度语义理解

– AED版本：在经典编解码结构上优化速度与精度，通过适配器融合语音与文本特征，输出细粒度时间戳与置信度

2、语音活动检测（FireRedVAD）：

基于DFSMN深度前馈序列记忆网络建模时序音频特征，结合平滑窗口与自适应阈值判定语音起止点，支持流式低延迟处理。

3、语种识别（FireRedLID）：

复用FireRedASR2编码器提取统一语音表征，在大规模多语言数据上预训练，构建跨语种共享特征空间，实现多语言/多方言高精度分类。

4、标点预测（FireRedPunc）：

基于BERT架构，对无标点文本进行句法与语义建模，在中英多领域数据上微调，自动预测并插入标准标点。

FireRedASR2S应用场景：

1、内容社区互动：

支撑语音评论、语音搜索等场景，支持方言、歌声等多样化输入，提升社区真实感与趣味性。

2、社交与通讯：

用于语音私信、语音拜年等场景，实现流畅语音转文字，降低输入门槛，强化情感表达。

3、内容创作生产：

支持语音发笔记、直播字幕、视频自动字幕等工具链，大幅提升创作者生产效率。

4、企业级服务：

适用于会议转写、智能客服、通话分析等B端场景，支持私有化部署，满足金融、医疗等高合规行业数据安全要求。

进入FireRedASR2S模型官网入口

FireRed-OCR小红书开源模型，轻量级文档结构解析VLM

Voxtral Mini 4B Realtime 2602：Mistral AI正式开源的实时流式语音识别模型

FireRed-Image-Edit模型官网入口，小红书Super Intelligence团队开源的通用图像编辑模型

FireRed-Image-Edit模型使用入口，小红书出品通用图像编辑模型，打破专业修图门槛

OpenStoryline官网使用入口，小红书开源的具备导演思维的视频剪辑Agent

标签：小红书开源, 语音识别模型

上面是“FireRedASR2S模型使用入口，支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别”的全面内容，想了解更多关于 AI项目和框架 内容，请继续关注web建站教程。

当前网址：https://m.ipkd.cn/webs_31293.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具！

猜你喜欢