lhpku20010120/Data-Prep-Bench

Name: lhpku20010120/Data-Prep-Bench
Creator: lhpku20010120
Published: 2026-05-01 04:17:42
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/lhpku20010120/Data-Prep-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个全面的资源，专为大型语言模型（LLMs）的监督微调（SFT）和评估而构建，涵盖六个领域：金融、医学、法律、数学、科学和通用领域。关键特点是采用了12种不同的数据生成方法（包括基于代理的方法、DataFlow系列、纯LLM生成和SKILL方法），使用多种尖端模型（如GPT-5、Claude Opus 4.6、Gemini 3.0 Pro等）处理原始语料库并生成高质量的问答对（QA）。此外，存储库还提供了标准化的基准文件用于模型评估。数据集支持多语言（训练语料库包含中文和英文；基准测试为英文），任务包括监督微调（SFT）和模型评估。

This dataset is a comprehensive resource built for Supervised Fine-Tuning (SFT) and evaluation of Large Language Models (LLMs), covering six domains: Finance, Medicine, Law, Mathematics, Science, and General. A key feature of this dataset is that it employs 12 different data generation methods (including Agent-based methods, DataFlow series, pure LLM-based generation, and a SKILL method) using multiple cutting-edge models (such as GPT-5, Claude Opus 4.6, Gemini 3.0 Pro, etc.) to process raw corpora and produce high-quality question-answer (QA) pairs. In addition, the repository provides standardized benchmark files for model evaluation. The dataset supports multilingual content (training corpora contain both Chinese and English; benchmarks are in English) and tasks include Supervised Fine-Tuning (SFT) and Model Evaluation.

提供机构：

lhpku20010120

搜集汇总

数据集介绍

构建方式

在大型语言模型监督微调与评估领域，Data-Prep-Bench数据集应运而生，旨在系统性探究数据生成策略对模型性能的影响。其构建过程匠心独运，采用了四类共计12种差异化数据生成方法，分别涵盖基于智能体的Agent框架、DataFlow系列流程、直接基于大语言模型的简单提示生成以及专门的SKILL技巧方法。这些方法被应用于处理涵盖金融、医学、法律、数学、科学及通用领域的原始语料库，其中专业领域语料源自PDF电子书经工具转换后的Markdown文件，通用领域语料则通过分层采样自HuggingFaceFW/fineweb数据集。最终，由GPT-5、Claude Opus 4.6等前沿模型在多域语料上生成了高质量的问答对，共计形成12种方法乘以6个领域合计72个训练子集。

使用方法

借助HuggingFace Datasets库即可便捷地加载与使用该数据集。用户可通过指定config_name参数选择具体的数据生成方法（如ClaudeOpus4.6_agent或GPT5.2_llm等12种配置之一）并配合split参数选定领域维度（Business、Law、Math、Medicine、Science或text中的任一值）来获取相应的训练数据。对于模型评估，仅需将config_name设为eval并指定评估领域拆分（business、law或medicine）即可加载标准化测试集。这种灵活的双轴索引机制使得研究者能够轻松组合不同方法生成的数据进行监督微调，也可以使用统一的评估基准来客观衡量不同微调策略在专业领域的知识掌握与推理能力，从而为寻找最优数据配方的研究提供了坚实的实验平台。

背景与挑战

背景概述

Data-Prep-Bench数据集由北京大学的研究团队于2024年创建，旨在系统性地探索大语言模型监督微调（SFT）中数据生成方法的质量与效果。该数据集的核心研究问题聚焦于不同数据构建策略如何影响模型在金融、医学、法律、数学、科学及通用六大专业领域上的表现。通过集成12种前沿数据生成方法，包括基于智能体框架（如GPT-5、Claude Opus 4.6）、DataFlow系列、纯大语言模型生成及SKILL方法，Data-Prep-Bench为对比分析不同生成范式提供了统一基准。该数据集在领域内具有重要影响力，不仅为SFT数据配方的优化提供了实证依据，还促进了数据生成方法的标准化评估，成为连接数据工程与模型性能研究的关键纽带。

当前挑战

Data-Prep-Bench所应对的领域核心挑战在于如何高效生成高质量、多样化的SFT数据以提升大语言模型在专业垂直领域中的知识掌握与推理能力。传统数据构建方法往往依赖单一生成管线，难以覆盖多领域复杂任务的需求，且不同生成策略对下游性能的影响缺乏系统比较。在数据集构建过程中，研究团队面临多重挑战：首先，原始语料来源异构，包括PDF电子书和网页文本，需进行格式统一与内容清洗；其次，12种生成方法涉及不同模型与范式，需确保各方法生成数据在格式与质量上的可比性；最后，评估基准的构建需从多个公开来源整合标准测试集，并统一其数据结构与评估协议，以保障跨领域评价的公平性与可复现性。

常用场景

经典使用场景

在大型语言模型的监督微调研究中，Data-Prep-Bench数据集被广泛用于比较不同数据生成策略对模型性能的影响。研究者能够借助该数据集系统性地探究基于智能体的方法、纯语言模型生成范式及DataFlow系列流水线等多种生成方式在同一领域内产出的问答对质量差异。六个专业领域——金融、医学、法律、数学、科学与通用文本——各自构成了独立的实验场域，使得模型的跨领域泛化能力得以精细评估。尤为重要的是，该数据集同步提供了标准化的评测基准，使得训练后的模型可在统一的业务、法律和医学测试集上完成性能对标，从而为数据预处理方案的优选提供可靠依据。

解决学术问题

该数据集有效回应了学术研究中关于监督微调数据质量与来源的长期困惑。通过在同一原始语料上并行部署多种先进模型和生成框架，它揭示了教师模型的选择与处理策略如何显著影响下游性能。研究者得以量化智能体框架相比直接提示式生成所带来的增益，并探索技能导向方法与通用流水线之间的互补性。这一系统性的比较框架推动了对数据配方优化机制的深刻认知，为后续构建高性能微调数据集奠定了方法论基石。其对跨领域差异的刻画亦启迪了领域自适应微调路线的理论探索。

实际应用

在产业应用中，Data-Prep-Bench推动了专业领域问答系统的精密调优。金融机构借助其金融领域的高质量问答对训练合规咨询与风险分析的专用模型，法律科技公司则利用法律评测集检验合同审查与判例检索模型的专业水平。医疗领域内，该数据集支撑了临床决策支持系统的微调与复现性评估。此外，各行业的数据团队可参照其多方法、多模型的生成范式，构建契合自身业务场景的定制化训练管线，从而加速垂直领域语言模型的落地与迭代。

数据集最近研究