ArenaRL:通义联合高德开源,面向开放域智能体的对比式强化学习方案

ArenaRL是由通义DeepResearch团队联合高德共同开源的对比式强化学习方法,专为开放域智能体的训练优化设计。目前,ArenaRL不仅在学术基准测试中表现优异,更已在高德地图真实业务场景中完成落地验证,显著提升了智能体在复杂任务中的规划与执行能力。

智能体模型通义实验室高德地图
AgentCPM-Explore:清华等联合研发的轻量级开源智能体模型

AgentCPM-Explore是由清华、人大、面壁智能与OpenBMB开源社区联合研发的轻量级开源智能体模型。该模型仅依托4B参数规模,却在多项长程任务评测基准中超越同尺寸乃至更大参数量的模型,展现出极高的能力密度;同时支持超100轮稳定交互,具备强大的深度探索能力。

GitHub仓库OpenBMB中国人民大学智能体模型清华大学面壁智能