FireRed-OCR小红书开源模型,轻量级文档结构解析VLM

FireRed-OCR是小红书团队开源的轻量级文档结构解析视觉语言模型,基于Qwen3-VL-2B-Instruct架构,采用三阶段渐进式训练。FireRed-OCR专为解决文档结构幻觉设计,可精准提取表格、公式、标题层级,并输出标准Markdown,兼顾高精度与轻量化部署。

AI视觉语言模型小红书开源
FireRedASR2S模型使用入口,支持中文普通话+20余种方言、英语、中英混读、代码切换及歌词识别

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型,一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块,实现从音频到可读文本的全链路高精度处理。

小红书开源语音识别模型
FireRed-Image-Edit模型官网入口,小红书Super Intelligence团队开源的通用图像编辑模型

FireRed-Image-Edit是小红书Super Intelligence团队开源的通用图像编辑模型,模型具备精准的指令遵循能力、高质量图像输出表现及出色的视觉一致性,尤其在文字风格保留方面优势突出,编辑效果可媲美主流闭源方案;同时在多个权威评测集上斩获SOTA成绩,广泛适配创意设计、电商内容创作等多元化场景。

AI图像编辑AI老照片修复AI虚拟试穿图像编辑模型小红书开源
FireRed-Image-Edit模型使用入口,小红书出品通用图像编辑模型,打破专业修图门槛

FireRed-Image-Edit核心优势是精准理解自然语言指令,实现高保真、视觉一致的全维度图像编辑,解决现有AI修图“改不准、易翻车、门槛高”的痛点;功能覆盖内容/风格/结构/文字四大维度,还支持虚拟试穿、老照片修复等特色玩法,适配日常修图、电商、创意创作等多场景。

图像编辑模型小红书开源
OpenStoryline官网使用入口,小红书开源的具备导演思维的视频剪辑Agent

OpenStoryline是小红书开源的首个具备导演思维的视频剪辑Agent,工具能精准理解画面情绪,自动匹配BGM与卡点,支持风格化仿写和全程对话式微调。OpenStoryline支持一键保存剪辑逻辑,训练专属风格分身。

小红书开源视频剪辑Agent
DeepEyesV2:小红书团队研发推出的多模态智能体模型

DeepEyesV2模型训练分为两个核心阶段:第一阶段通过监督微调,帮助模型建立工具使用的基础认知;第二阶段借助强化学习,大幅提升工具调用效率与场景泛化能力。

小红书开源智能体模型