ClawWork支持GPT-4o、Claude、Kimi等多模型同台竞技,并配备React实时仪表板用于监控Agent生存状态,为AI劳动力经济研究提供了首个“用进废退”的真实压力测试场景。
SWE-Lancer用于评估和研究AI模型在软件工程领域的实际应用能力与经济价值。通过SWE-Lancer,可清晰了解模型在真实软件工程任务中的表现,助力技术改进与创新,同时为探索AI对软件开发行业的经济影响提供量化工具。
DPAI Arena是JetBrains携手Linux基金会打造的开放式AI编码智能体基准测试平台,平台创新性采用多轨道架构,覆盖问题修复、PR审查、测试生成等真实开发场景,构建起透明、可扩展的评估体系。