DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型

57 ℃
Trae:新一代免费的AI编程工具

DataChef是由上海人工智能实验室(书生·浦语团队)与复旦大学联合开源的AI数据配方生成模型,可通过强化学习自动构建适配大模型任务的完整数据处理流水线,自动输出包含数据选择、清洗、合成、配比等环节的可执行代码。用户仅需输入目标任务与可用数据源,AI即可全自动完成“数据炼丹”。其32B版本在数学、代码、金融等6大领域性能逼近Gemini‑3‑Pro,部分任务超越工业级专家配方,标志着数据工程正式从人工经验走向自动化新范式。

DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型

DataChef核心功能:

1、自动数据配方生成:根据任务目标与可用数据源,自动生成完整数据处理方案。

2、可执行代码输出:直接产出可运行的Python数据处理代码,实现从原始数据到训练集的自动化流水线。

3、全流程数据处理:支持数据选择、清洗、增强、混合、去重等多环节处理。

4、即训即用适配微调:生成的数据配方可直接用于大模型微调,快速适配垂直领域。

5、内置数据质量验证:自带数据验证器,可评估数据质量并指导配方优化。

DataChef核心优势:

1、端到端全自动:摒弃传统人工规则,AI直接输出完整可执行流水线,无需人工编排步骤。

2、强化学习闭环优化:在线强化学习持续自我进化,在海量代码组合空间中高效寻优,减少人工试错。

3、低成本质量验证:Data Verifier无需完整模型训练即可实时评估数据质量,大幅降低验证成本。

4、开源模型越级性能:32B开源模型对标闭源顶级模型,部分任务优于人工专家方案。

5、开放研究底座:开源覆盖19领域的大规模任务池,为自动数据工程、自进化AI提供研究支撑。

DataChef使用流程:

1、环境安装:创建Python 3.12虚拟环境,使用 `pip install -e .` 完成安装。

2、配置文件:复制示例配置为 `datachef.config.json`,填写模型 API 地址、密钥及模型名称。

3、准备输入:按JSONL格式编写任务文件,包含任务ID、描述、评测基准与候选数据源。

4、执行生成:运行 `datachef-eval –config test`,自动生成数据配方、Python代码并完成质量验证。

5、获取结果:在 `data/code/` 和 `data/data-verifier/` 目录查看处理代码、执行报告与质量分数。

6、参数调整:支持通过 `–timeout` 设置超时、`–max_workers` 控制并行数、`–parse_reasoning` 输出推理过程。

进入DataChef模型官网入口

Nemotron-Cascade 2模型官网 - 英伟达正式开源的MoE混合专家模型,总参数量达30B

InternVL-U模型使用入口,4B参数轻量化统一多模态模型

MagicAgent模型使用入口,荣耀 × 复旦大学AI智能体基础模型

Hugging Face模型库官网入口,AI模型的GitHub

Hypernova-60B-2602模型,Multiverse发布的免费开源压缩大模型

标签: AI数据配方, HuggingFace模型库, 上海AI Lab, 上海人工智能实验室, 复旦大学

上面是“DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型”的全面内容,想了解更多关于 AI项目和框架 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_32016.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具!生活小工具

猜你喜欢