DataCurBench

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/anonymousaiauthor/DataCurBench

下载链接

链接失效反馈

官方服务：

资源简介：

DataCurBench是一个双任务基准测试套件，用于衡量大型语言模型在自主进行数据过滤（选择高质量样本）和数据清理（增强语言形式）方面的能力。它包括两个配置：`data_filtering`和`data_cleaning`，每个配置都有英语（`en`）和中文（`zh`）切分。这种设计有助于研究人员评估LLM在现实世界的策展流程上的表现，并确定端到端数据工作流程中需要改进的领域。

DataCurBench is a dual-task benchmark suite designed to measure the capabilities of large language models (LLMs) in autonomous data filtering (selecting high-quality samples) and data cleaning (enhancing linguistic forms). It includes two configurations: `data_filtering` and `data_cleaning`, each with English (`en`) and Chinese (`zh`) splits. This design enables researchers to evaluate LLMs' performance in real-world data curation workflows and identify areas requiring improvement in end-to-end data workflows.

创建时间：

2025-05-12

原始信息汇总

DataCurBench 数据集概述

📖 数据集简介

名称: DataCurBench
语言: 英文 (en)、中文 (zh)
许可证: Apache-2.0
标签: benchmark、data-curation
用途: 评估大语言模型在数据过滤（data_filtering）和数据清洗（data_cleaning）任务中的自主能力。

📂 数据集结构

配置:
- data_filtering: 数据过滤任务
  - 英文切分: data_filtering/en.json
  - 中文切分: data_filtering/zh.json
- data_cleaning: 数据清洗任务
  - 英文切分: data_cleaning/en.json
  - 中文切分: data_cleaning/zh.json
格式: JSON Lines (.json)

🚀 安装与加载

bash pip install datasets

python from datasets import load_dataset

加载英文数据过滤任务

ds_filter_en = load_dataset( "anonymousaiauthor/DataCurBench", name="data_filtering", split="en" )

加载英文数据清洗任务

ds_clean_zh = load_dataset( "anonymousaiauthor/DataCurBench", name="data_cleaning", split="en" )

🔍 数据示例

数据过滤任务 (`data_filtering/en.json`)

json [ { "id": "en-filter-186", "text": "The Donaldson Adoption Institute...", "decision": "Retain" }, { "id": "en-filter-15", "text": "Mount Aloysius vs Penn State Altoona...", "decision": "Reject" } ]

数据清洗任务 (`data_cleaning/en.json`)

json [ { "idx": "en-clean-1752", "raw_text": "The novel, Metropolis by The^*&%#a R=exa^n%ds...", "cleaned_text_human": "The novel, Metropolis by Alexander...", "cleaned_text_reference": "The novel, Metropolis by Alexander...", "meta": { "topic": "Literature & Arts", "source": "Encyclopedia", "function": "RemoveNoise", "subtopic": "Book Reviews", "difficulty": 3 } } ]

📝 引用

plaintext Anonymous_AI_Author et al. (2025). DataCurBench: Are LLMs Ready to Self‑Curate Pretraining Data?.

⚠️ 注意事项

偏见与安全性: 数据集包含真实网络数据，可能存在偏见或敏感内容。
许可证: 数据集基于以下公开数据集构建，均采用 Apache 2.0 许可证:
- RedPajama-Data-V2
- CCI3-Data

搜集汇总

数据集介绍

构建方式

DataCurBench数据集通过精心设计的双任务基准框架构建，涵盖数据过滤（data_filtering）和数据清洗（data_cleaning）两大核心任务。其语料源自RedPajama-Data-V2和CCI3-Data两大开源语料库，采用分层抽样策略确保英汉双语样本的平衡性。每个任务配置均通过人工专家标注团队进行三轮质量校验，标注过程严格遵循预定义的决策规则，如过滤任务中的'Retain/Reject'标签体系，清洗任务中的噪声消除、敏感信息掩码等七类处理范式。数据以JSON Lines格式存储，并通过YAML配置文件实现自动化加载。

使用方法

使用该数据集需通过HuggingFace的datasets库加载，支持按任务类型（data_filtering/data_cleaning）和语言（en/zh）进行灵活配置。评估流程建议采用三步法：首先加载指定配置的测试集，如英文过滤任务可通过load_dataset加载'data_filtering'配置的'en'分片；其次根据任务特性设计评估指标，如过滤任务可采用F1-score衡量决策准确性，清洗任务可使用BLEU或编辑距离评估文本规范化效果；最后结合meta字段中的难度分级进行分层性能分析。需要注意的是，由于数据集包含真实网络文本的敏感性，使用前应通过内容审查机制确保符合伦理要求。

背景与挑战

背景概述

DataCurBench是由匿名研究团队于2025年推出的双语基准测试套件，旨在评估大语言模型在数据预处理流程中的自主能力。该数据集聚焦于自然语言处理领域的两大核心任务——数据筛选与数据清洗，通过构建包含英文和中文的双语平行语料，为研究社区提供了系统评估模型性能的标准框架。其设计灵感来源于大规模预训练语料库质量控制的现实需求，通过整合RedPajama-Data-V2和CCI3-Data等权威语料资源，填补了端到端数据工作流评估工具的空白。

当前挑战

该数据集面临双重维度挑战：在任务层面，数据筛选任务需解决低质量样本识别中的语义模糊性问题，而数据清洗任务则需处理噪声文本中的复杂模式识别；在构建层面，双语对齐要求保持跨语言任务难度的一致性，且原始语料中的敏感信息过滤需要平衡数据效用与隐私保护。此外，基准测试的评估指标设计需兼顾任务特异性与跨任务可比性，这对自动化评估体系的构建提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，DataCurBench数据集被广泛用于评估大型语言模型在数据过滤和数据清洗任务中的性能。数据集通过提供真实世界中的文本样本及其标注决策，为研究者提供了一个标准化的测试平台。特别是在预训练语料库的构建过程中，该数据集帮助研究者识别和解决数据质量问题的关键环节。

解决学术问题

DataCurBench数据集解决了预训练语料库构建中的两大核心问题：数据过滤和数据清洗。通过提供标准化的评估基准，该数据集帮助研究者量化模型在识别高质量样本和修正语言错误方面的能力。这不仅推动了自动化数据预处理技术的发展，还为模型性能的客观比较提供了科学依据，显著提升了预训练数据的质量评估效率。

实际应用

在实际应用中，DataCurBench数据集被广泛用于优化企业级文本数据处理流程。例如，在内容审核系统中，该数据集训练的模型能够自动过滤低质量内容；在学术文献整理中，可有效清洗格式混乱的文本。其双语特性还支持跨语言应用的开发，如多语种新闻聚合平台的智能内容筛选系统。

数据集最近研究