Qwen3-Coder-Next:阿里开源的MoE架构编程智能体模型

Qwen3-Coder-Next是一款专为编程智能体与本地开发设计的开源权重语言模型。该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与 MoE 的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在显著降低推理成本的同时,获得了强大的编程与智能体能力。

AI编程智能体MoE模型Qwen3基础架构通义千问
DeepEP:DeepSeek推出的首个(EP)通信库,助力大规模MoE模型训练与推理

DeepEP是由DeepSeek团队开源的高效专家并行(EP)通信库,专为混合专家(MoE)模型的训练和推理任务设计。它通过优化通信效率,支持低精度运算(如FP8和BF16),并针对NVLink和RDMA网络进行了深度优化,显著提升了大规模模型的训练和推理性能。

DeepSeekMoE模型