多个数据集，如NLVR, MS MARCO, NewsQA等

github2019-03-19 更新2024-05-31 收录

下载链接：

https://github.com/white127/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个NLP任务数据集列表，包括问答、对话系统等多个领域的数据集，每个数据集都有详细的描述和相关链接。

This is a list of NLP task datasets, encompassing various domains such as question answering and dialogue systems. Each dataset is accompanied by a detailed description and relevant links.

创建时间：

2018-01-15

原始信息汇总

数据集概述

问题回答（Question Answering）

(NLVR) A Corpus of Natural Language for Visual Reasoning, 2017
(MS MARCO) MS MARCO: A Human Generated MAchine Reading COmprehension Dataset, 2016
(NewsQA) NewsQA: A Machine Comprehension Dataset, 2016
(SQuAD) SQuAD: 100,000+ Questions for Machine Comprehension of Text, 2016
(GraphQuestions) On Generating Characteristic-rich Question Sets for QA Evaluation, 2016
(Story Cloze) A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories, 2016
(Childrens Book Test) The Goldilocks Principle: Reading Childrens Books with Explicit Memory Representations, 2015
(SimpleQuestions) Large-scale Simple Question Answering with Memory Networks, 2015
(WikiQA) WikiQA: A Challenge Dataset for Open-Domain Question Answering, 2015
(CNN-DailyMail) Teaching Machines to Read and Comprehend, 2015
(QuizBowl) A Neural Network for Factoid Question Answering over Paragraphs, 2014
(MCTest) MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text, 2013
(QASent) What is the Jeopardy model? A quasisynchronous grammar for QA, 2007

对话系统（Dialogue Systems）

(Ubuntu Dialogue Corpus) The Ubuntu Dialogue Corpus : A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems, 2015

目标导向对话系统（Goal-Oriented Dialogue Systems）

(Frames) Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems, 2016
(DSTC 2 & 3) Dialog State Tracking Challenge 2 & 3, 2013

搜集汇总

数据集介绍

构建方式

该数据集涉及自然语言处理领域的多个子任务，构建方式各异。NLVR数据集通过收集图像与自然语言描述的对，旨在训练模型对视觉内容的理解能力。MS MARCO数据集由人类生成的问答对组成，用于机器阅读理解任务，其构建重点在于真实世界的复杂性。NewsQA数据集则是由新闻文章及其相关的问题和答案构成，用于评估机器对新闻文章内容的理解。这些数据集的构建均以大规模收集真实世界数据为基础，经过严格的标注和质量控制流程。

特点

这些数据集各具特色，NLVR强调视觉与语言的结合，MS MARCO突出真实世界问答的复杂性和多样性，NewsQA则注重新闻文本理解的深度和广度。它们均提供了大规模的标注数据，有助于推动自然语言处理技术，尤其是问答系统的发展。此外，这些数据集通常包含了多样化的评估指标，以全面衡量模型性能。

使用方法

使用这些数据集时，研究者应首先根据数据集提供的文档和指南进行数据下载和预处理。对于训练模型，研究者需要遵循数据集的格式规范，将数据集划分为训练集、验证集和测试集，以进行有效的模型训练和评估。部分数据集提供了在线接口或工具，便于研究者进行快速实验和结果验证。此外，研究者应关注数据集的许可协议，确保在使用和发布研究成果时遵守相关规定。

背景与挑战

背景概述

NLVR、MS MARCO、NewsQA等数据集，均为自然语言处理领域的重要资源。NLVR数据集创建于2017年，由康奈尔大学的自然语言处理团队开发，旨在推进视觉推理与自然语言处理的结合。MS MARCO数据集由微软研究院于2016年推出，是首个由人类生成的机器阅读理解数据集，为研究提供了真实的查询和答案实例。NewsQA数据集同样在2016年由Maluuba公司发布，用于评估机器在新闻文章理解方面的能力。这些数据集不仅丰富了自然语言处理的研究工具，而且推动了相关技术的发展，提升了人工智能在理解自然语言方面的能力。

当前挑战

这些数据集面临的挑战主要包括：一是如何更准确地模拟人类理解过程中的复杂性和多样性，例如NLVR数据集中的视觉推理任务需要模型具备更高级的图像与语言关联能力；二是数据集构建过程中的技术挑战，如MS MARCO数据集在构建时需要处理大量的人类生成数据，确保数据的质量和多样性；三是如何确保数据集的持续更新和维护，以适应不断发展的技术需求，这需要研究人员的共同努力和社区的有效协作。

常用场景

经典使用场景

NLVR、MS MARCO与NewsQA等数据集，作为自然语言处理领域内的宝贵资源，其经典使用场景主要集中于机器阅读理解与问题回答。NLVR数据集通过结合自然语言与视觉信息，推动机器在视觉推理任务上的发展。MS MARCO数据集以其庞大的人类生成问题与答案对，为研究机器阅读理解提供了丰富的实证材料。NewsQA数据集则专注于新闻文章的理解，旨在提升机器对开放领域文本的 comprehension 能力。

衍生相关工作

基于这些数据集，学术界衍生出大量相关工作，如针对不同类型的问题生成、对话系统的构建，以及结合多模态信息的研究等。这些工作不仅拓宽了数据集的适用范围，而且推动了自然语言处理技术的进步，为人工智能领域的发展贡献了新的理论和实践成果。

数据集最近研究