
DataChef是由上海人工智能实验室(书生·浦语团队)与复旦大学联合开源的AI数据配方生成模型,可通过强化学习自动构建适配大模型任务的完整数据处理流水线,自动输出包含数据选择、清洗、合成、配比等环节的可执行代码。用户仅需输入目标任务与可用数据源,AI即可全自动完成“数据炼丹”。其32B版本在数学、代码、金融等6大领域性能逼近Gemini‑3‑Pro,部分任务超越工业级专家配方,标志着数据工程正式从人工经验走向自动化新范式。

DataChef核心功能:
1、自动数据配方生成:根据任务目标与可用数据源,自动生成完整数据处理方案。
2、可执行代码输出:直接产出可运行的Python数据处理代码,实现从原始数据到训练集的自动化流水线。
3、全流程数据处理:支持数据选择、清洗、增强、混合、去重等多环节处理。
4、即训即用适配微调:生成的数据配方可直接用于大模型微调,快速适配垂直领域。
5、内置数据质量验证:自带数据验证器,可评估数据质量并指导配方优化。
DataChef核心优势:
1、端到端全自动:摒弃传统人工规则,AI直接输出完整可执行流水线,无需人工编排步骤。
2、强化学习闭环优化:在线强化学习持续自我进化,在海量代码组合空间中高效寻优,减少人工试错。
3、低成本质量验证:Data Verifier无需完整模型训练即可实时评估数据质量,大幅降低验证成本。
4、开源模型越级性能:32B开源模型对标闭源顶级模型,部分任务优于人工专家方案。
5、开放研究底座:开源覆盖19领域的大规模任务池,为自动数据工程、自进化AI提供研究支撑。
DataChef使用流程:
1、环境安装:创建Python 3.12虚拟环境,使用 `pip install -e .` 完成安装。
2、配置文件:复制示例配置为 `datachef.config.json`,填写模型 API 地址、密钥及模型名称。
3、准备输入:按JSONL格式编写任务文件,包含任务ID、描述、评测基准与候选数据源。
4、执行生成:运行 `datachef-eval –config test`,自动生成数据配方、Python代码并完成质量验证。
5、获取结果:在 `data/code/` 和 `data/data-verifier/` 目录查看处理代码、执行报告与质量分数。
6、参数调整:支持通过 `–timeout` 设置超时、`–max_workers` 控制并行数、`–parse_reasoning` 输出推理过程。
Nemotron-Cascade 2模型官网 - 英伟达正式开源的MoE混合专家模型,总参数量达30B
InternVL-U模型使用入口,4B参数轻量化统一多模态模型
MagicAgent模型使用入口,荣耀 × 复旦大学AI智能体基础模型
Hugging Face模型库官网入口,AI模型的GitHub
Hypernova-60B-2602模型,Multiverse发布的免费开源压缩大模型
标签: AI数据配方, HuggingFace模型库, 上海AI Lab, 上海人工智能实验室, 复旦大学
上面是“DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。
当前网址:https://m.ipkd.cn/webs_32016.html
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

结合vuex封装axios方法
miniPaint:开源在线图像编辑器,浏览器端的Photoshop平替
Moltbook:一款专为AI代理打造的类Reddit专属社交平台
ComfyUI-Sharp插件安装入口,1秒内从单张RGB图像快速生成高质量的3D高斯溅射