Meeseeks模型:已在魔搭社区、GitHub、Huggingface上线(附链接)

62 ℃

Meeseeks是由美团M17团队推出的一个专注于评测大模型指令遵循(Instruction-Following)能力的基准测试。它旨在评估模型是否能够严格按照用户指令的要求生成回答,而不评估回答内容本身的知识正确性。

Meeseeks模型:已在魔搭社区、GitHub、Huggingface上线

Meeseeks官网首页入口:

Meeseeks支持中文和英文,已在魔搭社区、GitHub、Huggingface上线。

1、魔搭社区:https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks

2、GitHub:https://github.com/ADoublLEN/Meeseeks

3、Huggingface:https://huggingface.co/datasets/meituan/Meeseeks

Meeseeks功能特点:

1、精细入微的三级评测框架

一级能力:任务核心意图与结构的把握。评估模型是否正确理解了用户的核心任务意图、回答的整体结构是否满足指令,以及回答中的每一个独立单元是否都符合指令细节。

二级能力:具体约束类型的实现。关注模型对各类具体约束的执行情况,如内容约束(主题、文体、语言、字数等)和格式约束(模版合规、单元数量等)。

三级能力:细粒度规则的遵循。关注那些极易被模型忽略的细节规则,如押韵、关键词规避、禁止重复、符号使用、特定写作手法等。

2、革命性的“多轮纠错”模式

如果模型的第一轮回答未能完全满足所有指令,评测框架会自动生成明确的反馈,指出具体哪个指令项未被满足,并要求模型根据该反馈修正答案。这种模式首次将模型的“自我纠错”能力纳入指令遵循的评测范畴。

3、评测结果

基于 Meeseeks 基准的评测结果显示,推理模型 o3-mini(high)凭借绝对优势强势登顶,与另一版本 o3-mini(medium)包揽冠亚军;Claude 3.7 Sonnet 的“思考版”则稳居第三。

4、核心评测洞察

所有模型在接收到反馈后,其指令遵循准确率均有显著提升,展现出强大的自我纠错潜力。

模型的第一轮表现与其最终表现并非完全相关,部分模型存在第一轮劣势但在第三轮表现出色的情况。

FramePackLoop官网:支持视频首尾连接生成循环的AI视频生成工具

AutoClip官网:支持从B站视频自动下载、字幕提取、智能切片等功能

Wow APP最新版

PosterCraft:一款用于生成高质量美学海报的AI框架

一款专为提升工作效率与创新能力而设计美团AI大模型——龙猫LongCat

标签: AI开源模型, GitHub仓库, Huggingface, 美团AI, 魔搭社区

上面是“Meeseeks模型:已在魔搭社区、GitHub、Huggingface上线(附链接)”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_22152.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具!生活小工具

猜你喜欢