MS MARCO, NewsQA, SQuAD, GraphQuestions, Story Cloze, Childrens Book Test, SimpleQuestions, WikiQA, CNN-DailyMail, QuizBowl, MCTest, QASent, Ubuntu Dialogue Corpus, Frames, DSTC 2 & 3

github2022-04-12 更新2024-05-31 收录

下载链接：

https://github.com/DSKSD/nlp-datasets-1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个NLP任务数据集的列表，按逆时间顺序排列，包括问答、对话系统等领域的数据集。

This is a list of NLP task datasets, arranged in reverse chronological order, encompassing datasets from fields such as question answering and dialogue systems.

创建时间：

2017-10-12

原始信息汇总

数据集概述

问题回答（Question Answering）

(MS MARCO) MS MARCO: 一个人工生成的机器阅读理解数据集，2016年发布。
(NewsQA) NewsQA: 一个机器理解数据集，2016年发布。
(SQuAD) SQuAD: 超过100,000个问题用于文本的机器理解，2016年发布。
(GraphQuestions) 用于QA评估的丰富特征问题集生成，2016年发布。
(Story Cloze) 用于更深入理解常识故事的语料库和完形评估，2016年发布。
(Childrens Book Test) 使用显式记忆表示阅读儿童书籍，2015年发布。
(SimpleQuestions) 使用记忆网络进行大规模简单问题回答，2015年发布。
(WikiQA) WikiQA: 一个开放领域问题回答的挑战数据集，2015年发布。
(CNN-DailyMail) 教授机器阅读和理解，2015年发布。
(QuizBowl) 用于段落事实问题回答的神经网络，2014年发布。
(MCTest) MCTest: 一个开放领域机器理解文本的挑战数据集，2013年发布。
(QASent) 什么是Jeopardy模型？一个用于QA的准同步语法，2007年发布。

对话系统（Dialogue Systems）

(Ubuntu Dialogue Corpus) Ubuntu对话语料库：一个用于非结构化多轮对话系统研究的大型数据集，2015年发布。

目标导向对话系统（Goal-Oriented Dialogue Systems）

(Frames) Frames: 一个用于为目标导向对话系统添加记忆的语料库，2016年发布。
(DSTC 2 & 3) 对话状态跟踪挑战2 & 3，2013年发布。

搜集汇总

数据集介绍

构建方式

MS MARCO数据集是为机器阅读理解任务而构建的，其数据来源于真实用户的查询和Bing搜索引擎的搜索结果。研究人员通过人工生成问题和答案对，确保了数据的高质量和多样性。该数据集涵盖了多种类型的查询，包括事实性问题和复杂的问题，旨在模拟真实世界的问答场景。

特点

MS MARCO数据集的特点在于其大规模和多样性。它包含了超过100万条问题和答案对，涵盖了广泛的领域和主题。数据集中的问题类型多样，既有简单的事实性问题，也有需要推理和理解的复杂问题。此外，答案的形式也多样化，包括短文本、段落和列表等，为机器阅读理解任务提供了丰富的训练和测试资源。

使用方法

MS MARCO数据集的使用方法主要包括数据下载、预处理和模型训练。用户可以从官方网站下载数据集，并根据任务需求进行预处理，如分词、去除停用词等。随后，可以使用该数据集训练和评估各种机器阅读理解模型，如基于注意力机制的模型和预训练语言模型。通过该数据集，研究人员可以评估模型在真实场景下的表现，并推动机器阅读理解技术的发展。

背景与挑战

背景概述

MS MARCO数据集于2016年由微软研究院推出，旨在推动机器阅读理解领域的发展。该数据集通过模拟真实世界的搜索查询，提供了大量由人工生成的问答对，涵盖了广泛的领域和主题。MS MARCO的核心研究问题是如何让机器更好地理解和回答自然语言问题，从而提升搜索引擎的智能化水平。该数据集在自然语言处理领域具有重要影响力，尤其是在问答系统和信息检索领域，推动了多项前沿研究和技术突破。

当前挑战

MS MARCO数据集面临的挑战主要集中在两个方面。首先，问答系统的复杂性要求模型不仅能够理解问题的表面含义，还需具备深层次的推理能力，以处理隐含信息和复杂语境。其次，数据集的构建过程中，如何确保问答对的质量和多样性是一个关键问题。由于数据来源于真实用户的搜索查询，噪声和不一致性难以避免，这对数据清洗和标注提出了极高的要求。此外，如何平衡数据集的规模与标注成本，也是构建过程中需要解决的重要挑战。

常用场景

经典使用场景

MS MARCO数据集广泛应用于机器阅读理解任务，特别是在开放域问答系统中。其独特的优势在于其问题来源于真实的用户查询，答案则通过人工标注生成，这使得模型能够更好地理解自然语言中的复杂语义和上下文关系。通过该数据集，研究者可以训练和评估模型在真实场景下的表现，从而推动问答系统的发展。

解决学术问题

MS MARCO数据集解决了机器阅读理解领域中的关键问题，即如何让模型从大规模文本中准确提取信息并生成简洁的答案。该数据集通过提供多样化的查询和丰富的上下文信息，帮助研究者开发出能够处理复杂语义和长文本的模型。这不仅提升了问答系统的性能，还为自然语言处理领域提供了新的研究方向。

衍生相关工作

MS MARCO数据集催生了许多经典的研究工作，例如基于BERT的问答模型和基于Transformer的阅读理解模型。这些工作不仅显著提升了问答系统的性能，还为自然语言处理领域提供了新的技术框架。此外，该数据集还推动了多任务学习和迁移学习在问答系统中的应用，为后续研究奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成