Large Question Answering Datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/ad-freiburg/large-qa-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含大量问答数据集的集合，用于自然语言处理任务，如问答（QA）。数据集按出版年份排序。

A comprehensive collection of extensive question-answer datasets, designed for natural language processing tasks such as question answering (QA). The datasets are organized chronologically by their publication year.

创建时间：

2020-03-19

原始信息汇总

大型问答数据集概览

数据集列表

WebQuestions

出版年份: 2013
大小: 5,810个问题
数据收集: 使用Google Suggest API生成问题，通过众包工人选择Freebase实体作为答案。

SimpleQuestions

出版年份: 2015
大小: 108,422个问题
数据收集: 从Freebase三元组生成问题，由英语母语者根据主题和谓词形成问题。

CNN/DailyMail Corpus

出版年份: 2015
大小: 约100万个问题
数据收集: 从CNN和DailyMail新闻文章中收集文章，创建Cloze风格的问题。

Childrens Book Test (CBT)

出版年份: 2016
大小: 687,343个问题
数据收集: 从108本儿童书籍中构建阅读理解数据集，每个示例包括上下文、查询、答案候选和实际答案。

30M Factoid Question-Answer Corpus

出版年份: 2016
大小: 3000万个问题
数据收集: 使用编码器-解码器架构从Freebase事实生成问题。

GraphQuestions

出版年份: 2016
大小: 5,166个问题
数据收集: 通过半自动方法在知识图谱上生成具有特定特征的问题。

SearchQA

出版年份: 2017
大小: 140,461个问题
数据收集: 从电视节目Jeopardy!收集问题，并通过Google搜索结果增强。

TriviaQA

出版年份: 2017
大小: 约95,000个问题
数据收集: 从14个琐事网站收集问题，并从网络搜索结果和维基百科文章中收集证据。

LC-QuAD

出版年份: 2017
大小: 5,000个问题
数据收集: 使用种子实体、谓词白名单和SPARQL查询模板生成复杂SPARQL查询，并通过人工编辑修正和改写问题。

SQuAD

出版年份: 2016/2018
大小: 107,785/151,054个问题
数据收集: 通过众包工人在维基百科文章上提问并标注答案。

ComplexWebQuestions

出版年份: 2018
大小: 34,689个问题
数据收集: 基于WebQuestionsSP数据集，通过组合SPARQL查询生成更复杂的问题。

HotpotQA

出版年份: 2018
大小: 112,779个问题
数据收集: 包含需要多跳推理的维基百科问题，由众包工人根据多个文本生成问题。

MS MARCO

出版年份: 2018
大小: 1,010,916个查询
数据收集: 包含通过Bing和Cortana提交的搜索查询，以及由Bing提供的相关文本段落。

QuAC

出版年份: 2018
大小: 98,407个问题
数据收集: 通过众包工人模拟学生和教师之间的对话，教师根据维基百科文章回答学生的问题。

CoQA

出版年份: 2019
大小: 约127,000个问题
数据收集: 包含来自7个不同领域的对话式问题。

FreebaseQA

出版年份: 2019
大小: 28,348个问题
数据收集: 从琐事网站和TriviaQA收集问题。

ComQA

出版年份: 2019
大小: 11,214个问题
数据收集: 从WikiAnswers收集问题。

Natural Questions

出版年份: 2019
大小: 323,045个问题
数据收集: 包含真实的Google搜索查询。

Compositional Freebase Questions (CFQ)

出版年份: 2020
大小: 239,357个问题
数据收集: 自动生成组合问题。

AdversarialQA

出版年份: 2020
大小: 36,000个问题
数据收集: 包含对问答模型具有挑战性的问题。

搜集汇总

数据集介绍

构建方式

Large Question Answering Datasets 数据集的构建方式多样且复杂，涵盖了从简单的API收集到复杂的自动生成和人工校对。例如，WebQuestions 数据集通过 Google Suggest API 生成问题，并由众包工作者选择答案。SimpleQuestions 则利用 Freebase 三元组生成问题，由人工注释者形成自然语言问题。CNN/DailyMail Corpus 通过新闻文章生成 Cloze 风格的问题。Children's Book Test (CBT) 从儿童书籍中提取上下文和问题。30M Factoid Question-Answer Corpus 使用编码器-解码器架构从 Freebase 事实生成问题。GraphQuestions 通过半自动方法生成复杂结构的问题。SearchQA 和 TriviaQA 分别从 Jeopardy! 和 trivia 网站收集问题。LC-QuAD 和 SQuAD 通过人工校对和众包生成问题。ComplexWebQuestions 和 HotpotQA 则生成需要多跳推理的问题。MS MARCO 和 QuAC 分别从 Bing 和 Wikipedia 文章中收集问题和答案。

特点

Large Question Answering Datasets 数据集的特点在于其多样性和规模。数据集涵盖了从简单的单实体问题到复杂的多跳推理问题，适用于不同层次的自然语言处理任务。数据集的多样性体现在其来源的广泛性，包括 API、众包、自动生成和人工校对。此外，数据集的时间跨度从2013年到2020年，反映了问答系统的发展历程。数据集的规模从数千到数百万不等，提供了丰富的训练和测试资源。每个数据集都有其独特的构建方法和应用场景，使得整个数据集集合成为一个全面的问答系统研究资源。

使用方法

Large Question Answering Datasets 数据集的使用方法多样，适用于各种自然语言处理任务。研究者和开发者可以使用这些数据集来训练和评估问答系统、阅读理解模型和信息检索系统。例如，可以使用 WebQuestions 和 SimpleQuestions 数据集来训练基于知识库的问答系统。CNN/DailyMail Corpus 和 Children's Book Test (CBT) 数据集适用于阅读理解任务。SearchQA 和 TriviaQA 数据集可以用于评估模型在真实世界问题上的表现。LC-QuAD 和 SQuAD 数据集适用于复杂问答和阅读理解任务。ComplexWebQuestions 和 HotpotQA 数据集适用于多跳推理任务。MS MARCO 和 QuAC 数据集适用于实际应用中的问答系统评估。通过这些数据集，研究者和开发者可以全面评估和提升其模型的性能。

背景与挑战

背景概述

大型问答数据集（Large Question Answering Datasets）是自然语言处理领域中用于问答任务的重要资源。这些数据集由多个子数据集组成，涵盖了从2013年至今的多个研究成果。主要研究人员和机构包括Berant、Bordes、Hermann等，他们通过不同的方法收集和生成问题与答案对，如利用Google Suggest API、Freebase三元组、新闻文章等。这些数据集的核心研究问题是如何有效地生成和理解自然语言问题及其答案，对推动问答系统的发展具有重要影响。

当前挑战

构建大型问答数据集面临多重挑战。首先，数据集的多样性和质量是关键问题，不同来源和生成方法可能导致数据偏差。其次，数据集的规模和复杂性增加了处理的难度，如多跳推理问题和对话式问答。此外，数据集的生成过程中涉及的自动化和人工校对也需要高度的精确性和一致性。最后，随着时间的推移，数据集的更新和维护也是一个持续的挑战，以确保其与最新的研究和技术发展保持同步。

常用场景

经典使用场景

在自然语言处理领域，大型问答数据集（Large Question Answering Datasets）被广泛应用于构建和评估问答系统。这些数据集包含了丰富的问答对，涵盖了从简单的事实性问题到复杂的推理问题。例如，SQuAD数据集通过众包方式收集了大量关于维基百科文章的问答对，用于训练和测试阅读理解模型。此外，HotpotQA数据集则专注于多跳推理问题，要求模型从多个相关文档中提取信息以回答问题。这些数据集的经典使用场景包括但不限于：训练问答模型、评估模型的理解能力和推理能力，以及开发新的问答技术。

衍生相关工作

大型问答数据集的发布和使用催生了大量相关研究和工作。例如，SQuAD数据集的发布激发了大量关于阅读理解模型的研究，包括BERT、RoBERTa等预训练语言模型的应用。HotpotQA数据集则推动了多跳推理和复杂问答系统的研究。此外，TriviaQA和SearchQA等数据集促进了知识问答和信息检索技术的发展。这些数据集不仅为学术界提供了丰富的研究资源，还为工业界提供了实际应用的基石，推动了整个自然语言处理领域的进步。

数据集最近研究