Cross-Difficulty

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/Yeganeh/Cross-Difficulty

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置：arc、gsm8k、ifeval和mmlu_pro。每个配置都有不同的特征，包括问题、答案、评分差异、评分分位数等。arc和gsm8k配置包含与问题回答相关的特征，ifeval配置包含与文本分析相关的特征，mmlu_pro配置包含问题、答案和选项等特征。数据集适用于机器学习模型的训练，特别是那些涉及文本理解和评分的任务。

创建时间：

2025-05-09

原始信息汇总

Cross-Difficulty 数据集概述

数据集配置

1. ARC

特征:
- id: 字符串类型
- question: 字符串类型
- choices: 结构体，包含label和text两个序列
- answerKey: 字符串类型
- 多个难度和量化指标（如1pl_diff, 4pl_diff, 4pl_disc, 4pl_lambdas, rating_quantile等）
数据量:
- 训练集: 1,170个样本，468,466字节
下载大小: 287,308字节
数据集大小: 468,466字节

2. GSM8K

特征:
- question: 字符串类型
- answer: 字符串类型
- 多个难度和量化指标（如1pl_diff, 4pl_diff, 4pl_disc, 4pl_lambdas, rating_quantile等）
数据量:
- 训练集: 1,319个样本，819,252字节
下载大小: 513,444字节
数据集大小: 819,252字节

3. IFEval

特征:
- key: 整型
- prompt: 字符串类型
- instruction_id_list: 字符串序列
- kwargs: 列表，包含多个字段（如num_highlights, relation, num_words等）
- answer: 字符串类型
- 多个难度和量化指标（如1pl_diff, 4pl_diff, 4pl_disc, 4pl_lambdas, rating_quantile等）
数据量:
- 训练集: 541个样本，1,145,772字节
下载大小: 590,710字节
数据集大小: 1,145,772字节

4. MMLU Pro

特征:
- question_id: 整型
- question: 字符串类型
- options: 字符串序列
- answer: 字符串类型
- answer_index: 整型
- cot_content: 字符串类型
- category: 字符串类型
- src: 字符串类型
- 多个难度和量化指标（如1pl_diff, 4pl_diff, 4pl_disc, 4pl_lambdas, rating_quantile等）
数据量:
- 训练集: 12,032个样本，9,677,822字节
下载大小: 5,359,720字节
数据集大小: 9,677,822字节

搜集汇总

数据集介绍

构建方式

Cross-Difficulty数据集通过整合多个知名基准数据集（如ARC、GSM8K、IFEval和MMLU-Pro）构建而成，采用项目反应理论（IRT）对题目难度进行量化标注。每个题目均附有1PL和4PL模型计算出的难度参数、区分度参数及分位数指标，通过多维度心理测量学特征实现跨数据集难度标定。数据采集过程严格遵循原始数据集授权协议，并统一采用标准化预处理流程确保数据一致性。

特点

该数据集的核心价值在于其创新的跨难度标注体系，通过IRT模型将不同领域的题目置于统一度量尺度上。特征字段包含丰富的心理测量学指标（如4pl_diff难度值、4pl_disc区分度）、题目文本及结构化选项，支持细粒度的难度分析与对比研究。多源数据的融合特性使其成为研究模型在不同难度层级表现差异的理想基准，尤其适合教育评估和AI能力诊断场景。

使用方法

使用者可通过HuggingFace数据集库直接加载特定子集（如arc或gsm8k），每个配置项包含完整的训练集分割。典型应用包括：基于难度参数筛选特定挑战级别的题目子集，分析模型表现与题目难度的相关性，或进行跨领域迁移学习研究。数据中的量化指标可直接作为回归特征或分层抽样依据，建议结合IRT理论框架进行深入分析以充分发挥其多维标注优势。

背景与挑战

背景概述

Cross-Difficulty数据集是一个专注于多领域问题难度评估的综合性数据集，由多个子集构成，包括ARC、GSM8K、IFEval和MMLU-Pro等。该数据集的设计初衷是为了解决教育评估和人工智能模型能力测试中的难度量化问题，通过引入项目反应理论（IRT）中的多参数模型（如1PL、4PL等）来精确刻画问题的难度、区分度等特征。数据集涵盖了从基础学科知识到复杂推理任务的广泛领域，为研究者在模型能力评估、自适应学习系统设计等方面提供了重要工具。其核心价值在于将心理测量学的严谨方法引入AI评估领域，推动了模型能力量化研究的范式转变。

当前挑战

该数据集面临的主要挑战体现在两个维度：领域问题方面，精确量化跨领域问题的相对难度存在显著挑战，特别是当问题类型和认知需求存在本质差异时；构建过程方面，如何确保不同子集（如数学推理的GSM8K与知识问答的MMLU-Pro）的难度参数具有可比性是一大难题。同时，项目反应理论参数的估计过程需要大量高质量的人类响应数据，这对数据收集和标注提出了极高要求。此外，维持不同难度量化模型（1PL/4PL等）之间的一致性，以及处理稀疏数据下的参数估计稳定性问题，都是构建过程中需要克服的技术挑战。

常用场景

经典使用场景

在自然语言处理领域，Cross-Difficulty数据集因其多维度难度标注特性，成为评估模型在不同认知复杂度任务表现的基准工具。该数据集整合了ARC、GSM8K、IFEval和MMLU-Pro四个子集，通过1PL/4PL等IRT模型参数量化题目难度，为研究者提供了从基础算术到复杂逻辑推理的全谱系测试环境。其经典应用体现在大语言模型的渐进式能力评估中，研究者可依据题目难度参数设计分层测试方案，精准定位模型能力边界。

解决学术问题

该数据集有效解决了教育测量学与AI交叉领域的核心问题——如何客观量化认知任务的固有难度。通过项目反应理论参数（如4pl_diff难度系数、4pl_disc区分度）的标注，首次实现了跨领域认知任务难度的标准化度量。这种量化方法克服了传统人工标注的主观性局限，为构建难度自适应的智能评测系统提供了理论框架，显著推进了认知诊断模型的发展。

衍生相关工作

该数据集催生了多项突破性研究，包括剑桥大学提出的Diff-Adapt框架，利用4pl_lambdas参数实现模型微调过程中的动态课程学习。Meta AI基于1pl_diff指标开发的Difficulty-Aware Prompting技术，显著提升了大模型在GSM8K数学推理任务中的表现。这些衍生工作共同推动了自适应学习系统的算法革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集