FireRed-OCR是小红书团队开源的轻量级文档结构解析视觉语言模型,基于Qwen3-VL-2B-Instruct架构,采用三阶段渐进式训练。FireRed-OCR专为解决文档结构幻觉设计,可精准提取表格、公式、标题层级,并输出标准Markdown,兼顾高精度与轻量化部署。
FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型,一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块,实现从音频到可读文本的全链路高精度处理。
FireRed-Image-Edit是小红书Super Intelligence团队开源的通用图像编辑模型,模型具备精准的指令遵循能力、高质量图像输出表现及出色的视觉一致性,尤其在文字风格保留方面优势突出,编辑效果可媲美主流闭源方案;同时在多个权威评测集上斩获SOTA成绩,广泛适配创意设计、电商内容创作等多元化场景。
FireRed-Image-Edit核心优势是精准理解自然语言指令,实现高保真、视觉一致的全维度图像编辑,解决现有AI修图“改不准、易翻车、门槛高”的痛点;功能覆盖内容/风格/结构/文字四大维度,还支持虚拟试穿、老照片修复等特色玩法,适配日常修图、电商、创意创作等多场景。