MNLP_M2_rag_documents_mmlu_stem_wiki

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/arnaultsta/MNLP_M2_rag_documents_mmlu_stem_wiki

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、文本和来源信息，是通过从Kaggle的wiki-stem-corpus数据集中检索每个问题的前两个文档，针对STEM相关功能创建的训练数据集。

创建时间：

2025-05-29

原始信息汇总

数据集概述

基本信息

数据集名称: MNLP_M2_rag_documents_mmlu_stem_wiki
存储位置: https://huggingface.co/datasets/arnaultsta/MNLP_M2_rag_documents_mmlu_stem_wiki
下载大小: 1,897,441 字节
数据集大小: 4,342,375 字节

数据特征

字段:
- question: 字符串类型，表示问题
- text: 字符串类型，表示文本内容
- source: 字符串类型，表示数据来源

数据划分

训练集:
- 样本数量: 6,306
- 字节大小: 4,342,375

数据来源与构建方法

基础数据集: 基于 https://huggingface.co/datasets/cais/mmlu 数据集的STEM相关问题
检索方法: 使用BAAI/bge-small-en-v1.5模型从 https://www.kaggle.com/datasets/conjuring92/wiki-stem-corpus 中为每个问题检索前2个文档

搜集汇总

数据集介绍

构建方式

在STEM领域知识检索的背景下，该数据集通过先进的检索增强生成技术构建而成。其核心流程涉及对MMLU数据集中STEM相关问题的处理，利用BAAI/bge-small-en-v1.5嵌入模型计算语义相似度，从Wiki STEM语料库中精准检索每个问题对应的最相关前两名文档。这种基于稠密向量检索的方法确保了知识来源的权威性和针对性，为后续的问答任务提供了高质量的知识支撑。

特点

该数据集的显著特征体现在其高度专业化的知识覆盖范围与严谨的结构化设计。所有文档均源自经过筛选的STEM学科维基百科语pus，保证了内容的准确性和学术深度。数据集包含6,306个训练样本，每个样本由问题、检索文档文本及来源信息构成，这种三元组结构为模型提供了清晰的上下文关联。文档检索策略专注于质量而非数量，通过限定Top-2文档有效平衡了信息密度与计算效率。

使用方法

该数据集主要服务于检索增强生成模型的训练与评估场景。研究人员可将其作为知识库，训练模型学习如何根据特定问题检索并融合外部知识。典型应用流程包括：将输入问题编码为查询向量，在嵌入空间中进行相似度匹配，最终结合检索到的文档生成答案。使用时应注重文档与问题的对齐验证，确保知识整合的准确性，同时可探索不同检索策略对最终生成质量的影响。

背景与挑战

背景概述

MNLP_M2_rag_documents_mmlu_stem_wiki数据集构建于2020年代，由自然语言处理领域的研究团队开发，旨在支持检索增强生成（RAG）技术在科学、技术、工程和数学（STEM）教育中的应用。该数据集基于著名的MMLU基准测试，专门筛选STEM相关主题的问题，并利用BAAI/bge-small-en-v1.5模型从维基百科语料库中检索高质量文档作为上下文参考。其核心研究问题聚焦于如何通过外部知识增强模型对复杂STEM问题的理解能力，从而推动人工智能在教育评估和知识推理方面的进展，对自动化问答系统和自适应学习工具的发展产生了显著影响。

当前挑战

该数据集主要应对STEM领域问答任务中模型缺乏深度知识整合的挑战，例如处理多步骤推理和专业术语理解问题。在构建过程中，挑战包括从大规模维基百科语料中精确检索与MMLU问题相关的文档，确保文档的权威性和时效性；同时，需平衡检索效率与准确性，避免引入噪声数据干扰模型训练。此外，STEM主题的多样性和复杂性要求严格的领域过滤机制，这增加了数据清洗和验证的难度。

常用场景

经典使用场景

在检索增强生成（RAG）系统中，该数据集通过结合MMLU的STEM领域问题与维基百科知识文档，为模型提供精准的外部知识支持。其典型应用包括构建智能问答平台，其中模型能够动态检索相关文档片段，从而生成更具事实性和深度的答案。这种机制显著提升了模型在科学、技术、工程和数学等专业领域的推理能力，尤其适用于处理需要多步逻辑推导的复杂问题。

衍生相关工作

基于该数据集的结构，多项研究聚焦于优化文档检索策略与生成模型的协同机制。例如，相关工作探索了多粒度文档编码方法，以提升检索精度；亦有研究将对抗性训练引入RAG框架，增强模型对噪声文档的鲁棒性。这些衍生工作进一步拓展了动态知识融合在开放域问答与对话系统中的应用边界。

数据集最近研究