MoE模型 - web建站教程手机端

返回 MoE模型

: Nemotron-Cascade 2模型官网 - 英伟达正式开源的MoE混合专家模型，总参数量达30B; Nemotron-Cascade 2是英伟达正式开源的混合专家模型（MoE），总参数量达30B，而激活参数仅3B，实现了“轻体量”与“高性能”的完美平衡。尽管体量轻巧，它却在硬核推理领域展现出惊人爆发力。; HuggingFace模型库 MoE模型混合专家模型AI 英伟达

: LongCat-Flash-Prover模型官网 - 美团开源的5600亿参数MoE形式化数学推理模型; 采用混合专家迭代框架与HisPO强化学习算法稳定训练，引入防作弊机制保障推理严谨性，在MiniF2F-Test等基准测试中达成SOTA水平，Pass@32准确率93.9%、PutnamBench难题解决率28.9%，显著超越现有开源模型。; MoE模型数学大模型美团开源

: Qwen3-Coder-Next：阿里开源的MoE架构编程智能体模型; Qwen3-Coder-Next是一款专为编程智能体与本地开发设计的开源权重语言模型。该模型基于 Qwen3-Next-80B-A3B-Base 构建，采用混合注意力与 MoE 的新架构；通过大规模可执行任务合成、环境交互与强化学习进行智能体训练，在显著降低推理成本的同时，获得了强大的编程与智能体能力。; AI编程智能体 MoE模型 Qwen3基础架构通义千问

: DeepEP：DeepSeek推出的首个（EP）通信库，助力大规模MoE模型训练与推理; DeepEP是由DeepSeek团队开源的高效专家并行(EP)通信库，专为混合专家(MoE)模型的训练和推理任务设计。它通过优化通信效率，支持低精度运算(如FP8和BF16)，并针对NVLink和RDMA网络进行了深度优化，显著提升了大规模模型的训练和推理性能。; DeepSeek MoE模型