Evidently AI官网:一个开源的ML/LLM可观测性与评估框架

Evidently AI是一个开源的ML/LLM可观测性与评估框架,围绕同名Python库构建,提供100+内置指标与测试套件,可一键生成HTML/JSON交互报告,也能将结果推送到自托管或云端仪表盘,实现“实验-评估-监控”全链路覆盖。

AI机器学习AI模型监测AI测试工具AI训练模型
TRUEBench:三星电子面向真实场景的AI生产力基准测试工具

TRUEBench是三星电子推出的AI基准测试工具,聚焦人工智能在实际工作场景中的生产力评估,针对性解决现有AI基准测试的核心局限性,例如以英语为中心的单一语言覆盖、局限于单轮问答的简单任务结构等问题。

AI性能测试AI测试工具三星AI
PromptForge:专注于创建、测试和系统地评估提示词

PromptForge是一个AI提示工程工作台,具备高级分析工具,能在测试前提供优化反馈。PromptForge支持多模型比较和专业测试,配备完善的提示管理功能,支持搜索、标签、历史记录和导出导入。

AI提示词工具AI测试工具AI辅助工具
URO-Bench:一款功能强大且灵活的AI基准测试工具

URO-Bench是一个面向端到端语音对话模型(SDMs)的全面基准测试工具。它是首个涵盖多语言、多轮对话及副语言信息的基准测试,旨在填补语音对话模型在语音到语音(Speech-to-Speech, S2S)场景下缺乏全面评估的空白。

AI模型AI测试工具