多个数据集，如NLVR, MS MARCO, NewsQA等

github2024-04-03 更新2024-05-31 收录

下载链接：

https://github.com/karthikncode/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于自然语言处理任务的数据集列表，包括问答、对话系统等多个领域。每个数据集都有详细的描述和相关论文、数据的链接。

This is a list of datasets pertaining to natural language processing tasks, encompassing various domains such as question answering and dialogue systems. Each dataset is accompanied by a detailed description along with links to relevant papers and data.

创建时间：

2016-04-19

原始信息汇总

数据集概述

问题回答（Question Answering）

(NLVR) A Corpus of Natural Language for Visual Reasoning, 2017
(MS MARCO) MS MARCO: A Human Generated MAchine Reading COmprehension Dataset, 2016
(NewsQA) NewsQA: A Machine Comprehension Dataset, 2016
(SQuAD) SQuAD: 100,000+ Questions for Machine Comprehension of Text, 2016
(GraphQuestions) On Generating Characteristic-rich Question Sets for QA Evaluation, 2016
(Story Cloze) A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories, 2016
(Childrens Book Test) The Goldilocks Principle: Reading Childrens Books with Explicit Memory Representations, 2015
(SimpleQuestions) Large-scale Simple Question Answering with Memory Networks, 2015
(WikiQA) WikiQA: A Challenge Dataset for Open-Domain Question Answering, 2015
(CNN-DailyMail) Teaching Machines to Read and Comprehend, 2015
(QuizBowl) A Neural Network for Factoid Question Answering over Paragraphs, 2014
(MCTest) MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text, 2013
(QASent) What is the Jeopardy model? A quasisynchronous grammar for QA, 2007

对话系统（Dialogue Systems）

(Ubuntu Dialogue Corpus) The Ubuntu Dialogue Corpus : A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems, 2015

目标导向对话系统（Goal-Oriented Dialogue Systems）

(Frames) Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems, 2016
(DSTC 2 & 3) Dialog State Tracking Challenge 2 & 3, 2013

搜集汇总

数据集介绍

构建方式

该数据集集合了多个自然语言处理领域的经典数据集，涵盖了问答系统、对话系统以及目标导向对话系统等多个子领域。每个数据集的构建均基于特定的研究需求，通过人工标注、自动化生成或混合方式获取数据。例如，NLVR数据集通过视觉推理任务生成自然语言描述，MS MARCO数据集则基于真实用户的搜索查询构建机器阅读理解任务。这些数据集的构建过程均经过严格的学术验证，确保了数据的质量和适用性。

特点

该数据集集合的特点在于其多样性和广泛性。每个数据集均针对特定的自然语言处理任务设计，如问答、对话生成和对话状态跟踪等。数据集的规模从数千到数十万条不等，涵盖了从简单问题到复杂推理任务的不同难度层次。此外，部分数据集如SQuAD和MS MARCO已成为该领域的基准数据集，广泛应用于模型训练和性能评估。数据集的开放性和可访问性也为研究者提供了便利，促进了自然语言处理技术的快速发展。

使用方法

该数据集的使用方法因具体任务而异，但通常包括数据下载、预处理、模型训练和评估等步骤。研究者可以通过GitHub或相关论文提供的链接获取数据集，并根据任务需求进行数据清洗和格式转换。例如，问答任务的数据集通常包含问题和答案对，可直接用于训练阅读理解模型；对话系统数据集则包含多轮对话记录，适用于对话生成和状态跟踪任务。此外，部分数据集还提供了基准模型和评估脚本，方便研究者进行性能对比和结果验证。

背景与挑战

背景概述

自然语言处理（NLP）领域近年来取得了显著进展，其中数据集的建设起到了至关重要的作用。NLVR、MS MARCO、NewsQA等数据集分别于2017年和2016年发布，由康奈尔大学、微软研究院等知名机构主导开发。这些数据集的核心研究问题集中在机器阅读理解、视觉推理和问答系统等领域，旨在通过提供高质量的训练数据，推动NLP模型的性能提升。例如，NLVR专注于自然语言与视觉推理的结合，MS MARCO则致力于构建人类生成的机器阅读理解数据集。这些数据集不仅为学术界提供了丰富的研究资源，还在工业界推动了智能问答系统、对话系统等应用的发展。

当前挑战

尽管这些数据集在NLP领域发挥了重要作用，但其构建和应用仍面临诸多挑战。首先，数据集的多样性和覆盖范围有限，难以全面反映真实世界的复杂性。例如，NLVR虽然结合了视觉与语言推理，但其数据规模相对较小，限制了模型的泛化能力。其次，数据标注的质量和一致性是另一个关键问题。MS MARCO等数据集依赖于众包标注，可能存在标注错误或主观偏差，影响模型的训练效果。此外，数据集的构建过程往往耗时耗力，需要大量的人力和资源投入。例如，NewsQA的构建涉及复杂的新闻文本处理和问题生成，这对数据集的扩展和更新提出了更高的要求。最后，如何在这些数据集上设计更高效的模型，以应对复杂的语言理解和推理任务，仍然是学术界和工业界共同面临的挑战。

常用场景

经典使用场景

在自然语言处理领域，NLVR、MS MARCO和NewsQA等数据集被广泛应用于视觉推理、机器阅读理解等任务。NLVR通过结合自然语言与视觉信息，推动了对多模态理解的研究；MS MARCO则通过大规模的人类生成数据，为机器阅读理解提供了丰富的训练资源；NewsQA则专注于新闻领域的问答系统，帮助模型更好地理解复杂的新闻文本。这些数据集的使用场景涵盖了从基础研究到实际应用的多个层面。

衍生相关工作

这些数据集衍生了许多经典的研究工作。例如，基于NLVR的研究推动了多模态学习模型的创新，如视觉问答系统和跨模态检索技术；MS MARCO则催生了多种高效的机器阅读理解模型，如BERT和T5等预训练模型；NewsQA则为新闻领域的问答系统提供了丰富的训练数据，促进了相关领域的研究进展。这些衍生工作不仅扩展了数据集的应用范围，也为自然语言处理领域注入了新的活力。

数据集最近研究