well_formatted_benchmarks_pro

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/patrickechohelloworld/well_formatted_benchmarks_pro

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个格式化基准数据集的集合，旨在解决当前基准数据集缺乏固定格式的问题。该数据集包含了一些著名基准数据的格式化版本，如ARC、GSM8K、HellaSwag等。

创建时间：

2025-05-08

原始信息汇总

数据集概述：well_formatted_benchmarks_pro

数据集基本信息

任务类别：零样本分类、问答
语言：英语
标签：合成数据
数据规模：1M<n<10M

数据集详情

数据集描述

该数据集是著名基准测试的格式化版本集合，旨在解决当前基准测试数据集格式不统一的问题。

数据来源

包含以下基准测试数据集：

ARC
- 原始仓库：https://huggingface.co/datasets/allenai/ai2_arc
GSM8K
- 原始仓库：https://huggingface.co/datasets/openai/gsm8k
HellaSwag
- 原始仓库：https://huggingface.co/datasets/Rowan/hellaswag
MMLU
- 原始仓库：https://huggingface.co/datasets/cais/mmlu
OpenBookQA
- 原始仓库：https://huggingface.co/datasets/mandarjoshi/trivia_qa
TriviaQA
- 原始仓库：https://huggingface.co/datasets/mandarjoshi/trivia_qa
PIQA
- 原始仓库：https://huggingface.co/datasets/ybisk/piqa
WinograndeXL
- 原始仓库：https://huggingface.co/datasets/allenai/winogrande

使用方式

直接使用

推荐使用polars加载main分支中的parquet文件
特殊标记：
- <user>：提示开始
- </user>：提示结束
- <model>：响应开始
- <sep>：选项开始
- </sep>：选项结束

超出范围使用

需要自定义分词器处理数据

数据集结构

原始数据：各子集的根目录
格式化数据：./processed目录
分词数据：./token目录

数据集创建

创建理由

[需要更多信息]

源数据

数据处理主要通过根目录中的Python脚本完成
原始作者信息请参考各数据集链接

偏见、风险和限制

部分数据集不适合SFT
建议用户自行检查原始数据

引用

[需要更多信息]

术语表

[需要更多信息]

数据集卡片作者

patrick_echo_hello_world

联系方式

patrickechohelloworld@gmail.com

搜集汇总

数据集介绍

构建方式

well_formatted_benchmarks_pro数据集通过系统化整合多个经典基准测试集构建而成，包括ARC、GSM8K、HellaSwag等知名语料库。该数据集采用统一格式化处理流程，原始数据经Python脚本进行标准化转换，确保所有子集遵循相同的结构化模板。构建过程中特别设计了<user>、<model>等特殊标记来规范问答对格式，同时保留原始数据的完整性和多样性，最终生成包含百万级样本的标准化评测集合。

特点

该数据集最显著的特征在于其严格的格式统一性，解决了基准测试数据格式杂乱的问题。所有子集均采用一致的标记系统划分问题、选项和答案，支持零样本分类和问答任务。数据集规模介于100万到1000万条之间，涵盖数学推理、常识判断、文本补全等多种任务类型，且全部为英文语料。结构化存储方式既便于直接使用，也支持灵活的自定义修改。

使用方法

使用该数据集时建议通过Polars库直接读取parquet格式文件，重点关注processed目录下的标准化数据。用户需根据自身需求处理特殊标记，可替换或删除<model>等预设符号。数据集提供原始数据、格式化数据和分词后数据三种版本，其中processed目录包含可直接用于模型训练和评估的规范化数据。对于特定任务，用户可参考演示样例调整输入输出格式，或修改附带的Python脚本进行自定义处理。

背景与挑战

背景概述

well_formatted_benchmarks_pro数据集由研究人员patrick_echo_hello_world创建，旨在解决当前基准数据集格式不统一的问题。该数据集整合了多个著名基准数据集，如ARC、GSM8K、HellaSwag等，涵盖了零样本分类和问答等任务，主要应用于自然语言处理领域。通过标准化格式，该数据集为研究人员提供了一个便捷的基准测试平台，显著提升了模型评估的效率和一致性。其影响力主要体现在简化了数据处理流程，促进了不同模型之间的公平比较。

当前挑战

该数据集面临的挑战主要包括两个方面：首先，在解决领域问题方面，如何确保整合的多个基准数据集在格式统一的同时，不损失其原有的多样性和复杂性，是一个关键挑战。其次，在构建过程中，处理不同数据源的异构性、确保数据质量的一致性以及适应不同任务的特殊需求，都需要精细的设计和大量的数据处理工作。此外，如何平衡格式标准化与灵活性，以满足不同研究需求，也是一个持续的挑战。

常用场景

经典使用场景

在自然语言处理领域，well_formatted_benchmarks_pro数据集为研究者提供了一个标准化的评估平台。该数据集整合了多个知名基准测试，如ARC、GSM8K和HellaSwag等，涵盖了零样本分类、问答等多种任务类型。研究者可利用其统一的格式快速比较不同模型在多样化任务上的表现，显著提升了评估效率。

解决学术问题

该数据集有效解决了NLP领域基准测试格式不统一的核心痛点。通过规范化处理原始数据，研究者无需再耗费精力处理不同基准间的格式差异，可将注意力集中于模型性能优化。这种标准化实践为比较性研究提供了可靠基础，尤其对跨任务泛化能力评估具有重要价值。

衍生相关工作

基于该数据集衍生了多项重要研究，包括多任务学习框架的基准测试体系构建，以及零样本学习模型的跨领域评估标准。开源社区以此为基础开发了UnifiedBench评估工具包，而Meta等机构则借鉴其格式规范创建了新一代多模态评估数据集MMBench。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集