atreydesai/augmented-mcqa-gpt-augmented
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/atreydesai/augmented-mcqa-gpt-augmented
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: openai_gpt-5.2-2025-12-11
features:
- name: id
dtype: string
- name: sample_id
dtype: string
- name: question_id
dtype: int64
- name: row_index
dtype: int64
- name: dataset_type
dtype: string
- name: question
dtype: string
- name: answer
dtype: string
- name: answer_index
dtype: int64
- name: category
dtype: string
- name: options
list: string
- name: choices_human
list: string
- name: human_from_scratch
list: string
- name: human_from_scratch_options_randomized
list: string
- name: human_from_scratch_correct_answer_letter
dtype: string
- name: model_from_scratch
list: string
- name: model_from_scratch_options_randomized
list: string
- name: model_from_scratch_correct_answer_letter
dtype: string
- name: augment_human
list: string
- name: augment_human_options_randomized
list: string
- name: augment_human_correct_answer_letter
dtype: string
- name: augment_model
list: string
- name: augment_model_options_randomized
list: string
- name: augment_model_correct_answer_letter
dtype: string
- name: augment_ablation
list: string
- name: augment_ablation_options_randomized
list: string
- name: augment_ablation_correct_answer_letter
dtype: string
splits:
- name: train
num_bytes: 15998970
num_examples: 2443
download_size: 15285462
dataset_size: 15998970
configs:
- config_name: openai_gpt-5.2-2025-12-11
data_files:
- split: train
path: openai_gpt-5.2-2025-12-11/train-*
---
提供机构:
atreydesai
搜集汇总
数据集介绍

构建方式
该数据集基于大规模多选问答(MCQA)任务构建,通过引入GPT模型对原始人工标注数据进行增强,形成augmented-mcqa-gpt-augmented数据集。构建过程首先收集人类从零开始生成的问答样本(human_from_scratch),并记录其对应的选项及正确答案。随后,利用先进的GPT模型生成对应的模型版本(model_from_scratch),并以此为基础衍生出多种增强变体:包括对人类样本进行增强(augment_human)、对模型样本进行增强(augment_model),以及消融实验版本(augment_ablation)。每个样本均保留了随机化后的选项列表与正确答案字母,确保数据多样性,最终汇总为包含2443条训练样本的完整数据集。
特点
该数据集的核心特色在于其多层次的增强结构设计,不仅包含原生人类与模型生成的问答对,还额外提供了多种增强版本,支持对模型推理能力与泛化性的深入探究。每个样本均细致记录了问题、原始选项、随机化选项及正确答案索引,便于进行标准化的评估与对照实验。此外,数据集涵盖多种类别(category),增强了样本的领域覆盖度。通过对比human_from_scratch、model_from_scratch及augment系列字段,研究者能够系统地分析模型在不同初始化条件下的表现差异,特别适用于研究模型对齐、增强学习与鲁棒性分析。
使用方法
该数据集可通过HuggingFace Datasets库直接加载使用,配置名为openai_gpt-5.2-2025-12-11,训练集包含2443个样本。使用时,用户可根据研究目标灵活选择不同字段:若要评估基准答案准确性,可直接使用answer_index或各版本正确答案字母字段;若需进行数据增强实验,可利用augment_human、augment_model或augment_ablation字段获取增强后的选项列表,配合对应的correct_answer_letter字段进行训练或测试。数据集支持随机化选项版本,便于消除选项顺序偏差,适用于多选问答模型的微调与评估任务。
背景与挑战
背景概述
augmented-mcqa-gpt-augmented数据集诞生于自然语言处理领域对多选问答(MCQA)任务日益增长的精细化需求之中。由OpenAI研究团队于2025年12月11日创建,该数据集旨在通过GPT模型生成的增强数据,系统性地探究人类与模型在复杂选择题解答上的行为差异。其核心研究问题聚焦于如何利用大规模语言模型的生成能力,模拟和扩充人类标注数据,从而提升MCQA模型的鲁棒性与泛化能力。该数据集不仅为对话式AI的评估提供了更具挑战性的基准,也推动了模型可解释性与对齐研究的前沿探索。
当前挑战
当前该数据集面临的核心挑战包括:其一,在领域问题层面,多选问答任务长期受困于选项分布偏差和表面线索干扰,模型常依赖统计捷径而非真正理解语义,这一局限亟待通过增强数据加以突破;其二,在构建过程中,如何确保GPT模型生成的增强样本既保持与人类标注一致的逻辑结构,又具备足够的多样性以避免过拟合,成为数据质量控制的关键难题;此外,不同增强策略(如基于人类或模型起点)之间的一致性与互补性衡量,亦对数据集设计提出了更高要求。
常用场景
经典使用场景
在自然语言处理与知识推理的交叉领域,augmented-mcqa-gpt-augmented数据集为多选问答任务提供了一种经过多源增强的评测基准。该数据集通过引入人类专家构造的推理链、大语言模型生成的逻辑路径以及消融样本,形成了层次丰富的问答实例。研究者可借此开展从选项语义匹配到因果推理链条建模的研究,尤其适合评估模型在面对复杂干扰项时的稳健性与泛化能力。
实际应用
在实际应用层面,该数据集为教育测评、智能答疑系统以及专业知识库检索等场景注入了生机。通过对比人类与模型在相同问题下的推理差异,智能辅导系统可以精准定位学生认知盲区,提供更具针对性的解析路径。同时,其在消融实验和选项随机化方面的设计,也为金融风控、医疗诊断等高风险领域的决策支持系统提供了对抗性扰动测试的标准化素材,保障了模型输出的稳定性与可靠性。
衍生相关工作
围绕augmented-mcqa-gpt-augmented数据集,学界已衍生出多项具有影响力的探索。例如,基于其中‘人类直写推理’与‘模型直写推理’的差异,研究者提出了推理路径一致性感知的训练范式,显著提升了模型在分布外问答上的表现。另有工作利用数据集的消融版本系统量化了不同干扰因素对模型决策的贡献度,催生了面向问答任务的特征归因解释方法,进一步丰富了大语言模型行为分析的技术图谱。
以上内容由遇见数据集搜集并总结生成



