Ming-omni-tts模型官网使用入口，大幅提升推理效率，推理帧率可低至3.1Hz，有效降低延迟

蚂蚁集团 inclusionAI团队近期正式发布Ming-omni-tts，一款设计简洁、运行高效的统一音频生成模型。该模型打破单一音频生成局限，在单一框架内即可高质量合成语音、音乐及各类环境声音，同时支持对声音属性的精确控制，多项评测指标达到业界领先水平，可广泛适配多场景音频生成需求。

Ming-omni-tts核心依托团队自研技术，采用12.5Hz连续分词器，搭配逐块压缩技术，在坚守高音质输出的基础上，大幅提升推理效率，推理帧率可低至3.1Hz，有效降低延迟。同时，模型具备强劲的文本正则化能力，能够准确、自然地朗读复杂数学公式与化学方程式，完美适配专业内容播报、教育科普等对文本解析要求较高的场景。

核心能力与技术亮点：

1、细粒度声音控制：

支持通过简单命令，精准调控语速、音高、音量、情感及方言等声音属性。其中，粤语方言控制准确率高达93%，情感控制准确率达46.7%，性能超越CosyVoice3，控制精度处于行业前列。

2、智能声音设计：

内置100余种优质音色，同时支持通过自然语言描述实现零样本声音设计，灵活满足不同风格需求；在Instruct-TTS-Eval-zh基准测试中，表现与Qwen3-TTS持平，综合性能优异。

3、沉浸式统一生成：

作为业界首个在单通道中联合生成语音、环境音与音乐的自回归模型，依托定制化12.5Hz连续分词器与DiT头架构，实现三种音频元素的无缝融合，打造“身临其境”的沉浸式听觉体验。

4、高效推理性能：

创新引入“逐块”压缩策略，将大语言模型推理帧率降至3.1Hz，在显著减少推理延迟、降低部署成本的同时，完整保留音频自然度与细节，可高效实现播客风格等复杂音频生成。

5、专业文本正则化：

具备强大的复杂文本解析能力，可准确解析并自然叙述数学表达式、化学方程式等复杂格式内容，彻底解决专业场景下音频播报不连贯、不准确的痛点。

模型下载与部署：

目前，Ming-omni-tts系列模型已全面开源，涵盖分词器、轻量级0.5B版本及高性能16.8B版本，可全面覆盖从轻量级部署（如移动端、小型设备）到工业级高性能音频生成（如专业播报、内容创作）的各类场景。开发者可直接在Huggingface和ModelScope两大平台下载使用，快速上手开展开发工作。

1、Ming-omni-tts-tokenizer-12Hz：

ModelScope社区：https://modelscope.cn/models/inclusionAI/Ming-omni-tts-tokenizer-12Hz

HuggingFace模型库：https://huggingface.co/inclusionAI/Ming-omni-tts-tokenizer-12Hz

2、Ming-omni-tts-0.5B：

ModelScope社区：https://modelscope.cn/models/inclusionAI/Ming-omni-tts-0.5B

HuggingFace模型库：https://huggingface.co/inclusionAI/Ming-omni-tts-0.5B

3、Ming-omni-tts-16.8B-A3B：

ModelScope社区：https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B

HuggingFace模型库：https://huggingface.co/inclusionAI/Ming-omni-tts-16.8B-A3B

4、Ming-omni-tta-0.5B：

ModelScope社区：https://modelscope.cn/models/inclusionAI/Ming-omni-tta-0.5B

HuggingFace模型库：https://huggingface.co/inclusionAI/Ming-omni-tta-0.5B