MNLP_M3_mcqa_dataset

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/youssefbelghmi/MNLP_M3_mcqa_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MNLP M3 MCQA数据集是一个包含约30,000个多项选择题问答（MCQA）示例的精心策划的集合，这些示例来自多个学术和基准数据集。该数据集旨在用于训练和评估在STEM（科学、技术、工程、数学）和一般知识领域中针对多项选择题任务的模型。数据集包括来自`SciQ`、`OpenBookQA`、`MathQA`、`ARC-Easy`、`ARC-Challenge`和`MedMCQA`等6个不同来源的问题，每个问题有4个选项和一个正确答案，涵盖了从科学到数学的各种主题。

The MNLP M3 MCQA dataset is a carefully curated collection of approximately 30,000 multiple-choice question answering (MCQA) examples sourced from multiple academic and benchmark datasets. This dataset is designed for training and evaluating models on multiple-choice question answering tasks across STEM (Science, Technology, Engineering, Mathematics) and general knowledge domains. It includes questions from six distinct sources: SciQ, OpenBookQA, MathQA, ARC-Easy, ARC-Challenge, and MedMCQA. Each question has four options and one correct answer, covering a wide range of topics from science to mathematics.

创建时间：

2025-06-03

原始信息汇总

MNLP M3 MCQA 数据集概述

基本信息

语言: 英文 (en)
许可证: MIT
多语言性: 单语言 (monolingual)
规模: 10K<n<100K
任务类别: 多项选择 (multiple-choice)
任务ID: 多项选择问答 (multiple-choice-qa)
数据集名称: MNLP M3 MCQA Dataset

主要特点

包含约30,000个多项选择问答 (MCQA) 问题
来源于6个不同的数据集: SciQ, OpenBookQA, MathQA, ARC-Easy, ARC-Challenge, MedMCQA
每个问题有4个选项 (A–D) 和一个正确答案
涵盖广泛的主题: 科学、技术、工程、数学和常识

数据集结构

每个示例为一个字典，包含以下字段:

字段	类型	描述
`dataset`	`string`	来源数据集 (`sciq`, `openbookqa` 等)
`id`	`string`	问题的唯一标识符
`question`	`string`	问题文本
`choices`	`list`	4个答案选项列表 (对应A–D)
`answer`	`string`	正确选项，为字母: `"A"`, `"B"`, `"C"`, 或 `"D"`

来源数据集

数据集整合了以下高质量MCQA来源:

来源 (Hugging Face)	名称	大小	描述
`allenai/sciq`	SciQ	11,679	科学问题 (物理、化学、生物、地球科学)
`allenai/openbookqa`	OpenBookQA	4,957	需要多步推理和常识的科学考试风格问题
`allenai/math_qa`	MathQA	5,000	数学应用题，引入数值推理和问题解决组件
`allenai/ai2_arc` (ARC-Easy)	ARC-Easy	2,140	中学水平的科学问题，测试基本STEM理解和事实回忆
`allenai/ai2_arc` (ARC-Challenge)	ARC-Challenge	1,094	需要推理和推断的更难的科问题目
`openlifescienceai/medmcqa`	MedMCQA	5,000	医学主题的多项选择题，涵盖各种医学学科的临床推理问题

数据集划分

train (~70%) — 用于训练MCQA模型
validation (~15%) — 用于调整和监控训练性能
test (~15%) — 用于对未见问题的最终评估

作者

该数据集由Youssef Belghmi创建并发布，作为EPFL (2025年春季) CS-552: Modern NLP课程的一部分。

搜集汇总

数据集介绍

构建方式

MNLP M3 MCQA数据集是一个经过精心整合的多选题问答数据集，源自六个高质量的学术和基准数据集，包括SciQ、OpenBookQA、MathQA、ARC-Easy、ARC-Challenge和MedMCQA。构建过程中，开发团队对这些数据集进行了统一处理，确保每个问题包含四个选项（A-D）和一个正确答案。数据集涵盖了科学、技术、工程、数学和一般知识等多个领域，旨在为STEM领域的模型训练和评估提供全面支持。

特点

该数据集包含约30,000道多选题，覆盖广泛的STEM和一般知识领域，具有多样性和挑战性。每个问题均经过标准化处理，确保选项数量一致，且答案唯一。数据集整合了来自不同来源的题目，既包含基础科学知识题，也包含需要多步推理和领域知识的复杂问题。这种多样性使得数据集适用于不同难度和领域的模型评估。

使用方法

数据集被划分为训练集（约70%）、验证集（约15%）和测试集（约15%），适用于多选题问答任务的模型训练和评估。用户可以通过加载数据集文件，访问每个问题的文本、选项和正确答案。该数据集特别适合用于STEM领域的模型微调和推理能力评估，研究人员可以直接将其应用于现有的自然语言处理框架中。

背景与挑战

背景概述

MNLP M3 MCQA数据集是由EPFL（洛桑联邦理工学院）在2025年春季的现代自然语言处理课程（CS-552: Modern NLP）中开发的一个多选问答数据集。该数据集由Youssef Belghmi等人精心构建，整合了来自六个高质量数据源的29,870个多选问题，涵盖科学、技术、工程、数学及一般知识等多个领域。其核心研究问题聚焦于提升模型在STEM领域的多选问答能力，为自然语言处理领域的研究和模型优化提供了重要资源。该数据集的创建不仅丰富了多选问答任务的训练和评估资源，还为跨学科知识推理和复杂问题求解提供了新的研究视角。

当前挑战

MNLP M3 MCQA数据集在构建和应用中面临多重挑战。从领域问题来看，多选问答任务要求模型具备跨学科知识整合和复杂推理能力，尤其是在STEM领域中，问题的多样性和深度对模型的泛化能力提出了更高要求。构建过程中，数据整合的挑战尤为突出，包括不同数据源之间的问题格式标准化、答案选项数量的一致性处理，以及确保问题覆盖范围的均衡性。此外，医学领域的问题（如MedMCQA）涉及专业术语和临床推理，进一步增加了数据清洗和标注的复杂度。这些挑战为数据集的构建和应用设置了较高的技术门槛，同时也为未来研究提供了改进方向。

常用场景

经典使用场景

在自然语言处理领域，MNLP M3 MCQA数据集作为多选问答任务的基准测试集，广泛应用于模型训练与评估。该数据集整合了六个高质量来源的STEM领域问题，涵盖科学、技术、工程和数学等多个学科，特别适合用于测试模型在复杂学科知识下的推理能力。研究者常利用该数据集验证模型在跨学科知识整合和逻辑推理方面的表现，尤其在处理需要多步推理的科学问题时，该数据集提供了丰富的测试案例。

解决学术问题

MNLP M3 MCQA数据集有效解决了自然语言处理中多选问答任务的评估难题，尤其是在STEM领域的复杂推理问题上。通过整合多个权威数据集，该数据集为研究者提供了统一的评估标准，使得模型在科学知识理解、多步推理和跨学科应用方面的性能得以量化。其多样化的题目来源和严格的格式规范，显著提升了学术研究的可比性和可重复性，推动了多选问答模型的标准化发展。

衍生相关工作

围绕MNLP M3 MCQA数据集，研究者们开展了一系列经典工作，包括基于Transformer的多选问答模型优化、跨领域知识迁移学习以及少样本学习在STEM问答中的应用。这些工作不仅推动了模型在科学问答任务中的性能提升，还衍生出针对医疗、工程等垂直领域的专用评估基准，进一步扩展了多选问答技术的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集