Maluuba/newsqa

Name: Maluuba/newsqa
Creator: Maluuba
Published: 2024-01-18 11:10:32
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Maluuba/newsqa

下载链接

链接失效反馈

官方服务：

资源简介：

NewsQA是一个包含超过100,000个人工生成的问答对的机器阅读理解数据集。数据集基于CNN的10,000多篇新闻文章，由众包工作者提供问题和答案，答案由文章中的文本片段组成。数据集支持的任务是抽取式问答（extractive QA），语言为英语，数据格式包括CSV和JSON两种配置。数据集分为训练集、验证集和测试集，具体数量在README中有详细说明。

NewsQA is a machine reading comprehension dataset containing over 100,000 human-generated question-answer pairs. It is based on more than 10,000 CNN news articles, with questions and answers provided by crowdworkers, where the answers are composed of text spans from the articles. The supported task is extractive QA, with the data in English and available in both CSV and JSON formats. The dataset is split into training, validation, and test sets, with specific sample counts detailed in the README.

提供机构：

Maluuba

原始信息汇总

数据集概述

基本信息

数据集名称: NewsQA
语言: 英语
许可证: MIT
多语言性: 单语种
数据集大小: 100K<n<1M, 10K<n<100K
源数据: 原始数据
任务类别: 问答
任务ID: 抽取式问答
论文ID: newsqa
美观名称: NewsQA

数据集结构

配置名称

combined-csv
combined-json
split

数据字段

配置: combined-csv

story_id: 故事的标识符
story_text: 故事的文本
question: 关于故事的问题
answer_char_ranges: 故事文本中答案的字符范围

配置: combined-json

storyId: 故事的标识符
text: 故事的文本
type: 数据集类型（train, validation, test）
questions: 问题列表
- q: 关于故事的问题
- isAnswerAbsent: 认为问题无答案的众包工作者比例
- isQuestionBad: 认为问题无意义的众包工作者比例
- consensus: 共识答案
  - s: 答案的开始位置
  - e: 答案的结束位置
  - badQuestion: 问题是否无意义
  - noAnswer: 问题是否有答案
- answers: 众包工作者的答案
  - sourcerAnswers: 单个众包工作者的答案
    - s: 答案的开始位置
    - e: 答案的结束位置
    - badQuestion: 问题是否无意义
    - noAnswer: 问题是否有答案
- validated_answers: 验证者的答案
  - s: 答案的开始位置
  - e: 答案的结束位置
  - badQuestion: 问题是否无意义
  - noAnswer: 问题是否有答案
  - count: 同意该答案的验证者数量

配置: split

story_id: 故事的标识符
story_text: 故事的文本
question: 关于故事的问题
answer_token_ranges: 故事文本中答案的词范围

数据分割

名称	训练集	验证集	测试集
combined-csv	119633
combined-json	12744
split	92549	5166	5126

搜集汇总

数据集介绍

构建方式

NewsQA数据集的构建基于CNN新闻文章，通过众包方式生成超过10万条问答对。众包工作者根据新闻内容提出问题，并从文章中提取答案片段。数据集的设计旨在挑战机器阅读理解能力，涵盖了多样化的新闻主题和复杂的语言结构。

特点

NewsQA数据集的特点在于其问答对的多样性和复杂性。每个问题都与特定的新闻文章相关联，答案通常为文章中的文本片段。数据集还包含了众包工作者对问题的评估，如问题是否合理、答案是否存在等，这些信息为模型的训练和评估提供了丰富的上下文。

使用方法

使用NewsQA数据集时，研究人员可以通过加载CSV或JSON格式的数据文件，获取新闻文章、问题及对应的答案片段。数据集支持多种配置，如combined-csv、combined-json和split，便于不同任务的需求。通过分析众包工作者的共识答案和验证答案，可以进一步优化模型的性能。

背景与挑战

背景概述

NewsQA数据集由微软研究院于2017年推出，旨在推动机器阅读理解领域的研究。该数据集基于CNN新闻文章，包含超过10,000篇新闻文本和100,000多个人工生成的问题-答案对。研究人员通过众包方式收集问题和答案，答案均为新闻文本中的连续片段。该数据集的核心研究问题在于如何使机器能够理解复杂的新闻文本并准确回答相关问题，推动了自然语言处理领域的技术进步。

当前挑战

NewsQA数据集在构建和应用中面临多重挑战。首先，新闻文本通常包含复杂的句法结构和丰富的语义信息，这对模型的上下文理解和推理能力提出了较高要求。其次，众包标注过程中存在标注者主观性差异，导致答案的一致性和准确性难以保证。此外，数据集中部分问题可能没有明确答案或答案不唯一，增加了模型训练的难度。这些挑战使得NewsQA成为评估和提升机器阅读理解模型性能的重要基准。

常用场景

经典使用场景

NewsQA数据集广泛应用于机器阅读理解领域，特别是在基于新闻文本的问答系统开发中。该数据集通过提供超过10万条由众包工人生成的问题-答案对，帮助研究人员训练和评估模型在复杂新闻文本中提取关键信息的能力。其经典使用场景包括模型在新闻文章中的信息定位、答案生成以及多轮对话系统的开发。

解决学术问题

NewsQA数据集解决了机器阅读理解领域中的多个关键问题，尤其是在处理长文本和复杂语境下的信息提取任务。通过提供基于CNN新闻文章的问题-答案对，该数据集帮助研究人员开发能够理解新闻内容并准确回答问题的模型。此外，数据集中的答案范围标注为字符级别，进一步推动了模型在精确答案定位方面的研究。

衍生相关工作

NewsQA数据集催生了多项经典研究工作，特别是在机器阅读理解模型的性能提升方面。基于该数据集的研究成果包括BERT、RoBERTa等预训练模型的改进版本，这些模型在NewsQA数据集上取得了显著的性能提升。此外，该数据集还推动了多模态问答系统的研究，结合文本和图像信息进行更复杂的问答任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集