Evidently AI是一个开源的ML/LLM可观测性与评估框架,围绕同名Python库构建,提供100+内置指标与测试套件,可一键生成HTML/JSON交互报告,也能将结果推送到自托管或云端仪表盘,实现“实验-评估-监控”全链路覆盖。
TRUEBench是三星电子推出的AI基准测试工具,聚焦人工智能在实际工作场景中的生产力评估,针对性解决现有AI基准测试的核心局限性,例如以英语为中心的单一语言覆盖、局限于单轮问答的简单任务结构等问题。
PromptForge是一个AI提示工程工作台,具备高级分析工具,能在测试前提供优化反馈。PromptForge支持多模型比较和专业测试,配备完善的提示管理功能,支持搜索、标签、历史记录和导出导入。
URO-Bench是一个面向端到端语音对话模型(SDMs)的全面基准测试工具。它是首个涵盖多语言、多轮对话及副语言信息的基准测试,旨在填补语音对话模型在语音到语音(Speech-to-Speech, S2S)场景下缺乏全面评估的空白。