Nemotron-Cascade 2模型官网 - 英伟达正式开源的MoE混合专家模型,总参数量达30B

Nemotron-Cascade 2是英伟达正式开源的混合专家模型(MoE),总参数量达30B,而激活参数仅3B,实现了“轻体量”与“高性能”的完美平衡。尽管体量轻巧,它却在硬核推理领域展现出惊人爆发力。

HuggingFace模型库MoE模型混合专家模型AI英伟达
LongCat-Flash-Prover模型官网 - 美团开源的5600亿参数MoE形式化数学推理模型

采用混合专家迭代框架与HisPO强化学习算法稳定训练,引入防作弊机制保障推理严谨性,在MiniF2F-Test等基准测试中达成SOTA水平,Pass@32准确率93.9%、PutnamBench难题解决率28.9%,显著超越现有开源模型。

MoE模型数学大模型美团开源
Qwen3-Coder-Next:阿里开源的MoE架构编程智能体模型

Qwen3-Coder-Next是一款专为编程智能体与本地开发设计的开源权重语言模型。该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与 MoE 的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在显著降低推理成本的同时,获得了强大的编程与智能体能力。

AI编程智能体MoE模型Qwen3基础架构通义千问
DeepEP:DeepSeek推出的首个(EP)通信库,助力大规模MoE模型训练与推理

DeepEP是由DeepSeek团队开源的高效专家并行(EP)通信库,专为混合专家(MoE)模型的训练和推理任务设计。它通过优化通信效率,支持低精度运算(如FP8和BF16),并针对NVLink和RDMA网络进行了深度优化,显著提升了大规模模型的训练和推理性能。

DeepSeekMoE模型