FilteredArticlesUMONS

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/alekgomez/FilteredArticlesUMONS

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了问题、额外指示、正确答案、引用、问题类别、难度估计等字段。数据集被拆分为训练集，其中包含了187个示例，文件大小为约12.23MB。数据集还包含了文档和文档摘要等信息。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称: FilteredArticlesUMONS
下载大小: 439,463 字节
数据集大小: 12,228,046.475689882 字节
训练集样本数量: 187 个

数据结构

特征列表

question: 字符串类型
additional_instructions: 字符串类型
ground_truth_answer: 字符串类型
gold: 字符串列表
choices: 空列表
question_category: 字符串类型
kind: 字符串类型
estimated_difficulty: 整数类型（int64）
citations: 字符串列表
document_id: 字符串类型
chunk_ids: 字符串列表
question_generating_model: 字符串类型
chunks: 字符串列表
document: 字符串类型
document_summary: 字符串类型
answer_citation_score: 浮点数类型（float64）
chunk_citation_score: 浮点数类型（float64）
citation_score: 浮点数类型（float64）

数据划分

划分名称: train
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，FilteredArticlesUMONS数据集的构建采用了先进的自动化流程。该数据集通过特定问题生成模型从原始文档中提取信息，并系统性地标注了问题、参考答案及引用来源。每个条目均包含详细的元数据，如问题类别、难度估计和引用评分，确保了数据来源的可靠性与结构化特征。

特点

FilteredArticlesUMONS数据集具备多维度特征，涵盖丰富的问题类型与高精度标注的答案引用机制。其独特之处在于整合了文档摘要、分块内容及引用评分体系，支持对答案可验证性的量化分析。数据集规模适中但高度精选，适用于需要细粒度评估的学术研究场景。

使用方法

该数据集适用于训练和评估问答系统及引用验证模型。研究者可基于问题-答案对进行模型微调，利用引用评分字段分析答案的可靠性。通过整合文档分块与元数据，可进一步探索多跳推理或可解释人工智能等前沿方向的应用潜力。

背景与挑战

背景概述

FilteredArticlesUMONS数据集由蒙斯大学研究团队于2023年构建，专注于机器阅读理解与事实性问答的前沿探索。该数据集通过结构化的问题-答案对与文献引证机制，旨在推动人工智能在知识检索与可信答案生成领域的发展。其创新性地整合了文档摘要、引文评分与难度评估等多维特征，为评估模型在复杂信息环境中的推理能力提供了重要基准，对自然语言处理领域的可解释性研究具有显著影响力。

当前挑战

该数据集核心挑战在于解决开放域问答系统中答案的准确性与可验证性问题，要求模型不仅需理解复杂问题语义，还需精准关联文献证据并评估信息可信度。构建过程中面临多重技术难题：如何从海量学术文献中提取高质量问题-答案对，如何设计科学的引证评分体系以量化证据可靠性，以及如何平衡不同难度层级的问题分布以确保评估的全面性。

常用场景

经典使用场景

在自然语言处理领域，FilteredArticlesUMONS数据集被广泛用于评估和提升问答系统的性能，特别是在处理需要精确引用和复杂推理的学术文献时。研究者利用该数据集训练模型理解并生成基于具体文档片段的答案，同时注重引用的准确性和答案的可验证性。

实际应用

在实际应用中，FilteredArticlesUMONS支持构建智能学术助手，帮助研究人员快速从大量文献中提取精准信息并验证来源。它还可集成到教育平台中，为学生和学者提供基于证据的学习支持，提升信息检索的效率和可信度。

衍生相关工作

围绕该数据集，衍生出多项经典研究，包括基于引用的答案生成模型、文档片段检索优化算法以及多模态学术问答系统。这些工作进一步拓展了数据集在可解释AI和学术知识管理中的应用边界，促进了相关技术的迭代与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集