five

atreydesai/augmented-mcqa-gemini-augmented

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/atreydesai/augmented-mcqa-gemini-augmented
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: google_gemini-3.1-pro-preview features: - name: id dtype: string - name: sample_id dtype: string - name: question_id dtype: int64 - name: row_index dtype: int64 - name: dataset_type dtype: string - name: question dtype: string - name: answer dtype: string - name: answer_index dtype: int64 - name: category dtype: string - name: options list: string - name: choices_human list: string - name: human_from_scratch list: string - name: human_from_scratch_options_randomized list: string - name: human_from_scratch_correct_answer_letter dtype: string - name: model_from_scratch list: string - name: model_from_scratch_options_randomized list: string - name: model_from_scratch_correct_answer_letter dtype: string - name: augment_human list: string - name: augment_human_options_randomized list: string - name: augment_human_correct_answer_letter dtype: string - name: augment_model list: string - name: augment_model_options_randomized list: string - name: augment_model_correct_answer_letter dtype: string - name: augment_ablation list: string - name: augment_ablation_options_randomized list: string - name: augment_ablation_correct_answer_letter dtype: string splits: - name: train num_bytes: 13151091 num_examples: 2423 download_size: 12441991 dataset_size: 13151091 configs: - config_name: google_gemini-3.1-pro-preview data_files: - split: train path: google_gemini-3.1-pro-preview/train-* ---
提供机构:
atreydesai
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于大规模多选问答(MCQA)任务构建,通过引入数据增强技术,对原始人类标注的问答对进行扩展。具体而言,利用Gemini 3.1 Pro Preview模型对原始问题进行扰动与改写,生成多样化的变体。同时,保留人类从零构建的答案作为基线,并设计消融实验版本以控制增强策略的影响。数据集包含多种类型的选项随机化版本,旨在测试模型在不同表述下的鲁棒性。最终形成包含2423个训练样本的增强型MCQA数据集,覆盖多个知识类别。
特点
数据集的核心特色在于系统性地对比人类与模型在问答生成中的差异,并探索增强策略的有效性。每个样本均包含人类原始答案、模型生成答案以及三种增强版本(人类增强、模型增强、消融增强),且每种版本均提供对应的选项随机化形式。这种多层次结构允许研究者深入分析增强技术对答案一致性及模型泛化能力的影响。此外,数据集标注了正确答案字母,便于自动化评估。
使用方法
该数据集适用于训练和评估多选问答模型的推理能力与鲁棒性。使用时,可选取不同增强版本作为训练数据,或直接利用随机化选项版本进行对抗性测试。建议将原始人类答案作为黄金标准,通过计算模型预测与增强版本答案的匹配率来评估增强效果。数据集以JSON格式提供,可直接加载至Hugging Face的datasets库,并支持自定义分割与过滤操作。
背景与挑战
背景概述
在自然语言处理领域,多选题问答(Multiple-Choice Question Answering, MCQA)作为评估语言模型推理能力的重要基准,长期依赖人工构建的静态数据集,这些数据集往往受限于成本、领域覆盖度和时效性。为了突破这一瓶颈,研究人员开始探索利用大型语言模型进行自动化数据增强与生成。在此背景下,由Google Gemini团队主导构建的augmented-mcqa-gemini-augmented数据集于近期发布,其核心研究问题在于:如何利用先进的多模态语言模型(如Gemini 3.1 Pro)生成高质量、多样化的MCQA样本,以弥补现有数据集的不足。该数据集包含2,423个训练样本,不仅保留人类专家的原始标注,还引入模型生成的多种变体(如augment_human、augment_model等),为评估模型自生成数据的可靠性与增强效果提供了独特资源,对推动自动数据扩增技术的标准化与可信度具有重要影响。
当前挑战
该数据集致力于解决的领域挑战是MCQA任务中数据稀缺性与多样性不足的问题,尤其当需要覆盖长尾知识或新兴领域时,人工标注的高昂成本与缓慢迭代成为瓶颈。尽管采用模型增强,但如何确保生成选项的语义连贯性与正确性,避免引入潜在偏见或错误推理,仍是关键障碍。在构建过程中,主要挑战包括:平衡人类标注与模型生成样本的质量差异,确保数据集的统计一致性;设计随机化选项策略以防止模型记忆化,同时保持问题难度梯度的合理性;以及处理多轮增强(如from_scratch vs augmented变体)时,不同来源答案的标签对齐与冲突消解,这些环节对统计框架的鲁棒性提出了严峻考验。
常用场景
经典使用场景
在自然语言处理与机器学习的交叉领域中,augmented-mcqa-gemini-augmented 数据集被广泛用于评估和提升多选问答(MCQA)模型的稳健性与泛化能力。该数据集通过引入人类与模型生成的多视角扰动选项,为研究者提供了在不同扰动策略下测试模型一致性的理想平台。经典使用场景包括但不限于:利用其丰富的随机化选项版本(如 human_from_scratch_options_randomized 和 augment_model_options_randomized)来检验模型对选项顺序的鲁棒性,以及通过人工与模型标注的正确答案比对来量化推理偏差。这一设计使得该数据集成为解读大语言模型在复杂推理任务中行为特性的重要工具。
衍生相关工作
基于 augmented-mcqa-gemini-augmented 数据集,衍生出一系列值得关注的研究工作。在数据增强领域,研究者借鉴其扰动生成策略,开发了针对不同任务(如情感分析、文本蕴含)的自动化样本扩充框架。在模型评估方面,该数据集被用于诊断大语言模型在对抗性示例下的表现,催生了诸如对比学习抗扰训练等新型训练范式。此外,针对该数据集中人类与模型扰动模式的差异分析,启发了探索人机协作标注质量的课题,推动了关于如何整合多重知识来源以提升基准测试可靠性的讨论。这些衍生工作共同促进了自然语言理解领域在鲁棒性与评估方法论上的持续进步。
数据集最近研究
最新研究方向
在当前大语言模型评估体系日益精细化的背景下,augmented-mcqa-gemini-augmented数据集聚焦于多选问答场景中模型对选项随机化、人类与模型作答差异及数据增强效果的深入剖析。该数据集通过引入基于Gemini模型生成的增强样本,对比人类从零开始的推理、模型原生输出以及增强后的表现,为研究模型在复杂知识问答中的稳健性和泛化能力提供了标准化测试床。其核心前沿方向在于利用人机对比和消融实验,揭示数据增强对模型决策可解释性和偏见校正的作用机制,对推动负责任的AI评估和提示优化策略具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作