MNLP_M2_mcqa_dataset
收藏Hugging Face2025-05-26 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/youssefbelghmi/MNLP_M2_mcqa_dataset
下载链接
链接失效反馈官方服务:
资源简介:
MNLP M2 MCQA数据集是一个精心策划的多项选择题问答(MCQA)示例集合,从多个学术和基准数据集中统一而来。该数据集包含约25,000个MCQA问题,涵盖科学、技术、工程、数学和一般知识领域,适用于训练和评估模型在STEM领域的多项选择题问答任务。
创建时间:
2025-05-25
原始信息汇总
MNLP M2 MCQA 数据集概述
基本信息
- 名称: MNLP M2 MCQA Dataset
- 语言: 英语 (en)
- 许可协议: MIT
- 多语言性: 单语言
- 大小: 10K < n < 100K
- 任务类别: 多项选择
- 任务ID: 多项选择问答 (multiple-choice-qa)
关键特征
- 问题数量: ~25,000 个多项选择问题
- 来源多样性: 7 个不同来源
- 选项格式: 每个问题有 4 个选项 (A–D) 和一个正确答案
- 主题覆盖: 科学、技术、工程、数学和常识
数据集结构
每个示例包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
dataset |
string |
来源数据集 (如 sciq, openbookqa 等) |
id |
string |
问题的唯一标识符 |
question |
string |
问题文本 |
choices |
list |
4 个答案选项的列表 (对应 A–D) |
answer |
string |
正确答案选项 ("A", "B", "C", "D") |
来源数据集
| 来源 (Hugging Face) | 名称 | 数量 | 描述 |
|---|---|---|---|
allenai/sciq |
SciQ | 11,679 | 科学问题 (物理、化学、生物、地球科学) |
allenai/openbookqa |
OpenBookQA | 4,957 | 需要多步推理和常识的科学考试风格问题 |
allenai/math_qa |
MathQA | 5,500 | 数学应用题,引入数值推理和问题解决 |
allenai/ai2_arc (ARC-Easy) |
ARC-Easy | 2,140 | 中学水平的科学问题,测试基本 STEM 理解 |
allenai/ai2_arc (ARC-Challenge) |
ARC-Challenge | 1,094 | 需要推理和推断的更难的理科问题 |
sharmaarushi17/HPCPerfOpt-MCQA |
HPCPerfOpt-MCQA | 85 | 高性能计算 (HPC) 性能优化问题 |
local GPT-generated |
ChatGPT | 40 | 使用 GPT-4 生成的 STEM 和计算主题问题 |
数据集划分
- 训练集: ~80%
- 验证集: ~10%
- 测试集: ~10%
作者
- 创建者: Youssef Belghmi
- 机构: EPFL (CS-552: Modern NLP 课程, Spring 2025)
搜集汇总
数据集介绍

构建方式
MNLP M2 MCQA数据集通过整合多个高质量的学术和基准数据集构建而成,涵盖了科学、技术、工程和数学(STEM)领域的多项选择题。数据集由EPFL的CS-552课程团队精心设计,从七个不同的来源(包括SciQ、OpenBookQA、MathQA等)筛选并统一了25,495道题目,确保每道题目包含四个选项和一个正确答案。构建过程中特别注重题目的多样性和难度分布,以支持模型在STEM领域的训练和评估。
特点
该数据集以其广泛的覆盖范围和多样化的题目来源著称,包含约25,000道多项选择题,每道题目严格遵循四选项(A-D)的格式。数据集不仅涵盖基础科学知识,还包含需要多步推理和数值计算的复杂问题,特别适合用于测试模型在STEM领域的理解和推理能力。此外,数据集还引入了高性能计算(HPC)等专业领域的内容,进一步丰富了题目的技术深度和多样性。
使用方法
MNLP M2 MCQA数据集按照8:1:1的比例划分为训练集、验证集和测试集,便于用户进行模型训练、调优和最终评估。使用时,用户可以直接加载数据集中的JSON格式文件,每个条目包含题目文本、选项列表和正确答案。该数据集特别适合用于多项选择题回答任务的模型训练,尤其是在STEM领域的研究中,能够有效评估模型的知识掌握和推理能力。
背景与挑战
背景概述
MNLP M2 MCQA数据集是由EPFL(洛桑联邦理工学院)在2025年春季的现代自然语言处理课程中开发的一个多选问答数据集,旨在为STEM领域及一般知识的多选题问答任务提供训练和评估资源。该数据集汇集了来自七个不同来源的约25,000道多选题,涵盖科学、技术、工程、数学等多个学科领域。其核心研究问题聚焦于提升模型在复杂推理和跨学科知识整合方面的能力,为自然语言处理领域的研究提供了重要的数据支持。
当前挑战
该数据集面临的挑战主要包括两方面:首先,在领域问题解决上,多选题问答任务要求模型不仅具备广泛的知识覆盖,还需具备深度的推理能力,尤其是在STEM领域中,涉及复杂的逻辑推理和跨学科知识整合。其次,在构建过程中,数据集整合了多个来源的数据,需确保数据格式的统一性和问题的多样性,同时避免引入偏见或噪声,这对数据清洗和标注工作提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,MNLP M2 MCQA数据集作为多选问答任务的基准数据集,广泛应用于模型训练与评估。该数据集整合了STEM领域的多样化问题,涵盖科学、技术、工程和数学等多个学科,特别适合用于测试模型在复杂知识推理和跨学科理解方面的能力。研究人员通过该数据集能够系统地评估模型在多项选择题解答中的准确性和泛化能力。
实际应用
在实际应用中,MNLP M2 MCQA数据集被广泛用于教育技术领域,例如智能辅导系统和在线学习平台。通过利用该数据集训练的模型,能够为学生提供个性化的学习支持,自动解答科学和数学领域的多项选择题。此外,该数据集还可用于开发自动化考试评分系统,帮助教育机构高效评估学生的知识掌握程度。
衍生相关工作
基于MNLP M2 MCQA数据集,研究者们开展了一系列经典工作,包括开发新型的多选问答模型和优化现有算法的性能。例如,部分研究利用该数据集探索了基于Transformer的模型在STEM问答任务中的表现,另一部分工作则专注于提升模型在跨学科推理中的能力。这些衍生研究进一步推动了自然语言处理技术在教育领域的应用和发展。
以上内容由遇见数据集搜集并总结生成



