返回AI项目和框架

DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型

303 ℃

Trae：新一代免费的AI编程工具

DataChef是由上海人工智能实验室（书生·浦语团队）与复旦大学联合开源的AI数据配方生成模型，可通过强化学习自动构建适配大模型任务的完整数据处理流水线，自动输出包含数据选择、清洗、合成、配比等环节的可执行代码。用户仅需输入目标任务与可用数据源，AI即可全自动完成“数据炼丹”。其32B版本在数学、代码、金融等6大领域性能逼近Gemini‑3‑Pro，部分任务超越工业级专家配方，标志着数据工程正式从人工经验走向自动化新范式。

DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型

DataChef核心功能：

1、自动数据配方生成：根据任务目标与可用数据源，自动生成完整数据处理方案。

2、可执行代码输出：直接产出可运行的Python数据处理代码，实现从原始数据到训练集的自动化流水线。

3、全流程数据处理：支持数据选择、清洗、增强、混合、去重等多环节处理。

4、即训即用适配微调：生成的数据配方可直接用于大模型微调，快速适配垂直领域。

5、内置数据质量验证：自带数据验证器，可评估数据质量并指导配方优化。

DataChef核心优势：

1、端到端全自动：摒弃传统人工规则，AI直接输出完整可执行流水线，无需人工编排步骤。

2、强化学习闭环优化：在线强化学习持续自我进化，在海量代码组合空间中高效寻优，减少人工试错。

3、低成本质量验证：Data Verifier无需完整模型训练即可实时评估数据质量，大幅降低验证成本。

4、开源模型越级性能：32B开源模型对标闭源顶级模型，部分任务优于人工专家方案。

5、开放研究底座：开源覆盖19领域的大规模任务池，为自动数据工程、自进化AI提供研究支撑。

DataChef使用流程：

1、环境安装：创建Python 3.12虚拟环境，使用 `pip install -e .` 完成安装。

2、配置文件：复制示例配置为 `datachef.config.json`，填写模型 API 地址、密钥及模型名称。

3、准备输入：按JSONL格式编写任务文件，包含任务ID、描述、评测基准与候选数据源。

4、执行生成：运行 `datachef-eval –config test`，自动生成数据配方、Python代码并完成质量验证。

5、获取结果：在 `data/code/` 和 `data/data-verifier/` 目录查看处理代码、执行报告与质量分数。

6、参数调整：支持通过 `–timeout` 设置超时、`–max_workers` 控制并行数、`–parse_reasoning` 输出推理过程。

进入DataChef模型官网入口

daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

Nemotron-Cascade 2模型官网 - 英伟达正式开源的MoE混合专家模型，总参数量达30B

InternVL-U模型使用入口，4B参数轻量化统一多模态模型

MagicAgent模型使用入口，荣耀 × 复旦大学AI智能体基础模型

Hugging Face模型库官网入口，AI模型的GitHub

标签： AI数据配方, HuggingFace模型库, 上海AI Lab, 上海人工智能实验室, 复旦大学

上面是“DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型”的全面内容，想了解更多关于 AI项目和框架 内容，请继续关注web建站教程。

当前网址：https://m.ipkd.cn/webs_32016.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具！

猜你喜欢