five

atreydesai/augmented-mcqa-together-augmented

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/atreydesai/augmented-mcqa-together-augmented
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: together_Qwen_Qwen3.5-397B-A17B features: - name: id dtype: string - name: sample_id dtype: string - name: question_id dtype: int64 - name: row_index dtype: int64 - name: dataset_type dtype: string - name: question dtype: string - name: answer dtype: string - name: answer_index dtype: int64 - name: category dtype: string - name: options list: string - name: choices_human list: string - name: human_from_scratch list: string - name: human_from_scratch_options_randomized list: string - name: human_from_scratch_correct_answer_letter dtype: string - name: model_from_scratch list: string - name: model_from_scratch_options_randomized list: string - name: model_from_scratch_correct_answer_letter dtype: string - name: augment_human list: string - name: augment_human_options_randomized list: string - name: augment_human_correct_answer_letter dtype: string - name: augment_model list: string - name: augment_model_options_randomized list: string - name: augment_model_correct_answer_letter dtype: string - name: augment_ablation list: string - name: augment_ablation_options_randomized list: string - name: augment_ablation_correct_answer_letter dtype: string splits: - name: train num_bytes: 13014377 num_examples: 2423 download_size: 12305465 dataset_size: 13014377 configs: - config_name: together_Qwen_Qwen3.5-397B-A17B data_files: - split: train path: together_Qwen_Qwen3.5-397B-A17B/train-* ---
提供机构:
atreydesai
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于大规模多选问答(MCQA)任务构建,由Together公司对Qwen3.5-397B-A17B模型生成的内容进行增强而来。原始样本包含人类标注的问答对,在此基础上,通过引入模型生成、人类增广、模型增广及消融实验等多种方式,对每个样本的选项和答案进行随机化处理,并记录对应的正确答案字母标识。每个样本均保留了原始人类答案与模型答案的完整对比链,确保数据来源的可追溯性与对比性。
特点
数据集的核心特色在于多源答案的并行呈现,涵盖从零开始的人类回答、模型回答、增强后的人类及模型回答,以及消融实验版本,形成多层次、多维度的答案对比体系。每条记录均包含选项随机化版本及正确的字母标识,便于评估不同来源答案的一致性与鲁棒性。总计2423条训练样本,涵盖多种类别,结构严谨,特别适合用于分析人类与模型在复杂推理任务中的表现差异。
使用方法
数据集以HuggingFace格式开放,使用load_dataset函数即可加载指定配置(together_Qwen_Qwen3.5-397B-A17B)。用户可通过访问question字段获取原始问题,利用options字段解析候选答案,并结合human_from_scratch_correct_answer_letter、model_from_scratch_correct_answer_letter等字段获取不同来源的正确选项标识,进行对比分析。适用于多选问答基准测试、答案一致性评估、模型行为调试及人类—模型协作策略研究等场景。
背景与挑战
背景概述
在自然语言处理领域,多选问答任务作为评估模型理解与推理能力的重要基准,长期以来受到研究者的广泛关注。augmented-mcqa-together-augmented数据集由Together团队于近期创建,其核心研究问题在于如何系统性地提升大语言模型在多选问答场景下的鲁棒性与泛化能力。该数据集以Qwen3.5-397B-A17B模型为基底,通过引入人类专家标注与模型自动生成的增强样本,构建了一个包含2423个训练实例的高质量资源。其影响力体现在为多选问答任务提供了标准化的增强评估框架,推动了模型在复杂推理与选项消歧方面的性能提升。
当前挑战
当前数据集面临的核心挑战涵盖两大维度。在领域问题层面,多选问答任务长期受困于选项顺序敏感性、干扰项设计不足以及模型对表面线索的过度依赖,导致评估结果难以真实反映模型的深层推理能力。在构建过程中,团队需克服人类标注成本高昂且一致性难以保证的难题,同时确保模型生成的增强样本与人类标注在语义和难度上保持动态平衡。此外,如何设计合理的增强策略以避免引入噪声或重复模式,以及如何在有限的样本规模(2423例)下确保数据集的代表性与多样性,均是构建中的关键挑战。
常用场景
经典使用场景
在自然语言处理与认知科学交叉的学术疆域中,augmented-mcqa-together-augmented数据集以其精细的多源标注结构,为探索大语言模型在多项选择问答任务上的表现提供了黄金标准。该数据集最经典的使用场景聚焦于评估与增强模型在复杂推理情境下的泛化能力,通过对比人工标注答案与模型生成答案之间的差异,研究者能够系统性地剖析模型在知识检索、逻辑推断及语义消歧等维度的优劣。选项随机化与消融实验设计的引入,使得该数据集成为检验模型鲁棒性与偏移敏感性的理想平台。
解决学术问题
该数据集深刻回应了当前大语言模型研究中的核心困境——即模型在标准化测试中是否真正具备类人推理能力,抑或仅依赖于统计捷径。通过提供从零构建的人工与模型答案对照,以及增强版本的多轮标注,该数据集有效剥除了常见基准测试中的数据泄漏与答案模式记忆问题,揭示了模型在选项分布变化时表现的不稳定性。这为理解语言模型的认知边界、设计更公正的评估范式提供了量化依据,推动学术社区从成绩竞赛转向对模型内在推理机制的深度审视。
衍生相关工作
围绕augmented-mcqa-together-augmented数据集,衍生了一系列具有里程碑意义的学术工作,包括针对大语言模型自我校准能力的研究——利用该数据集中人工与模型答案的差异来量化模型的置信度偏差;以及面向多选项推理的鲁棒性分析框架,通过选项随机化生成多个评估支路,系统度量模型对表面形式的依赖程度。此外,基于该数据集还催生了若干数据增强方法论,如利用消融实验挖掘模型已知与未知的知识边界,进而设计更高效的课程学习与对抗训练策略,显著推动了开放域问答系统的稳健化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作