NewsQA

Name: NewsQA
Creator: Microsoft Research
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://www.microsoft.com/en-us/research/project/newsqa-dataset/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为提取式问答任务而设计的，其来源是新闻文章，并附有相应的问题。它是MRQA 2019共享任务的一部分，旨在为问答领域提供一个非特定领域的资料集合。

This dataset is designed for extractive question answering tasks. It is sourced from news articles accompanied by their corresponding questions, and is part of the MRQA 2019 Shared Task, aiming to provide a domain-agnostic collection of resources for the question answering field.

提供机构：

Microsoft Research

搜集汇总

数据集介绍

构建方式

NewsQA数据集基于CNN新闻文章构建，通过四阶段流程收集：首先从CNN抓取的90,266篇文章中随机选取12,744篇，涵盖政治、经济等多元主题；随后由一组众包工作者仅依据文章标题和摘要点提出探索性问题，以激发好奇心并避免简单词汇匹配；另一组工作者阅读完整文章后标注答案，答案以文本片段形式呈现，并允许标记无答案情况；最后通过验证阶段确保答案质量，约86%的问题获得至少两名工作者的一致答案。

特点

该数据集包含119,633个人工生成的问题-答案对，答案类型丰富多样，涵盖日期、数值、人物、地点等，其中常见名词短语占比最高（22.2%）。推理类型分析显示，32.7%的问题依赖词汇匹配，27.0%需要释义识别，而33.9%的问题要求推理或综合多句信息，这比SQuAD数据集更具挑战性。此外，9.5%的问题无答案，且答案长度不固定，鼓励问题与答案间的词汇和句法差异。

使用方法

NewsQA适用于训练和评估机器阅读理解模型，使用标准F1和精确匹配（EM）指标评估性能。数据集已划分为训练集（90%）、开发集（5%）和测试集（5%），并标记了无一致答案的问题作为可选挑战。研究人员可直接加载文章、问题和答案三元组，利用文本跨度预测任务训练模型，如match-LSTM或BARB等基线模型。数据集免费提供于https://datasets.maluuba.com/NewsQA，便于复现和比较。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解能力被视为衡量人工智能语言智能的关键标尺。尽管此前涌现出如MCTest、CNN/Daily Mail、SQuAD等一系列数据集，但多数数据集或规模过小难以支撑深度模型训练，或依赖合成方法生成问题而缺乏自然语言的真实性与推理挑战。为填补这一空白，Maluuba Research团队于2016年发布了NewsQA数据集，由Adam Trischler、Tong Wang、Xingdi Yuan等核心研究人员主导。该数据集基于超过1.2万篇CNN新闻文章，通过四阶段众包流程收集了逾10万个由人类提出的问答对，答案以原文连续片段形式呈现。其核心研究问题在于构建一个能够促使模型进行复杂推理（如信息合成、跨句推理）的基准，从而推动机器从浅层词汇匹配向深层语义理解迈进。NewsQA的发布显著提升了机器阅读理解任务的难度基准，其与人类在F1分数上0.198的差距，为后续研究指明了方向。

当前挑战

NewsQA所面临的挑战涵盖领域问题与构建过程两个维度。在领域问题层面，该数据集要求模型应对五大难题：答案可为任意长度的文本片段而非单一实体；部分问题在原文中无对应答案（空跨度）；不提供候选答案选项；问题与答案之间刻意保持词汇与句法上的差异性；相当比例的问题需要超越简单词汇匹配的推理能力，如信息合成与跨句推断。这些特性使得模型无法依赖关键词匹配或文本蕴含识别等浅层策略。在构建过程中，挑战同样严峻：需设计分离式众包流程以鼓励探索性问题的生成，避免问题成为原文句子的简单复述；需协调多位标注者对答案的一致性，并通过验证阶段处理无共识的案例；还需应对答案跨多个非连续片段（如列表）的复杂情况，这些均增加了数据集构建的难度与成本。

常用场景

经典使用场景

NewsQA数据集在机器阅读理解领域占据着举足轻重的地位，其经典使用场景聚焦于训练和评估模型从长篇新闻文本中提取答案的能力。与早期依赖实体掩码或候选选项的数据集不同，NewsQA要求模型在无候选答案的情况下，从CNN新闻文章中定位任意长度的文本片段作为答案。这一设计迫使模型超越简单的词汇匹配，转向更深层次的语义理解与推理，例如跨句信息整合、指代消解以及上下文关联分析，从而成为检验机器阅读系统综合能力的标杆。

解决学术问题

该数据集有效解决了学术研究中机器阅读理解模型泛化能力不足的核心问题。通过引入大量需要推理（如推断、综合）而非仅依赖词汇匹配的问题，NewsQA揭示了现有模型（如match-LSTM）在复杂场景下的显著性能瓶颈——人类与机器的F1差距高达0.198。这一挑战推动了学界对长程依赖建模、多句信息融合以及无答案问题检测等关键难题的深入探索，为开发更具鲁棒性和智能化的阅读理解算法提供了坚实的基准与动力。

衍生相关工作

NewsQA的发布催生了一系列经典衍生工作，推动了机器阅读领域的持续演进。其中，BARB（Bilinear Annotation Re-encoding Boundary）模型通过双线性注意力机制与卷积边界解码器，在保证效率的同时实现了与match-LSTM相近的性能。此外，后续研究如基于Transformer的预训练语言模型（如BERT、RoBERTa）在NewsQA上的微调，进一步验证了大规模无监督预训练对复杂推理任务的有效性。这些工作共同巩固了NewsQA作为评估模型推理能力不可或缺的基准地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集