MS MARCO, NewsQA, SQuAD, GraphQuestions, Story Cloze, Childrens Book Test, SimpleQuestions, WikiQA, CNN-DailyMail, QuizBowl, MCTest, QASent, Ubuntu Dialogue Corpus, Frames, DSTC 2 & 3
收藏github2022-04-12 更新2024-05-31 收录
下载链接:
https://github.com/DSKSD/nlp-datasets-1
下载链接
链接失效反馈官方服务:
资源简介:
这是一个NLP任务数据集的列表,按逆时间顺序排列,包括问答、对话系统等领域的数据集。
This is a list of NLP task datasets, arranged in reverse chronological order, encompassing datasets from fields such as question answering and dialogue systems.
创建时间:
2017-10-12
原始信息汇总
数据集概述
问题回答(Question Answering)
- (MS MARCO) MS MARCO: 一个人工生成的机器阅读理解数据集,2016年发布。
- (NewsQA) NewsQA: 一个机器理解数据集,2016年发布。
- (SQuAD) SQuAD: 超过100,000个问题用于文本的机器理解,2016年发布。
- (GraphQuestions) 用于QA评估的丰富特征问题集生成,2016年发布。
- (Story Cloze) 用于更深入理解常识故事的语料库和完形评估,2016年发布。
- (Childrens Book Test) 使用显式记忆表示阅读儿童书籍,2015年发布。
- (SimpleQuestions) 使用记忆网络进行大规模简单问题回答,2015年发布。
- (WikiQA) WikiQA: 一个开放领域问题回答的挑战数据集,2015年发布。
- (CNN-DailyMail) 教授机器阅读和理解,2015年发布。
- (QuizBowl) 用于段落事实问题回答的神经网络,2014年发布。
- (MCTest) MCTest: 一个开放领域机器理解文本的挑战数据集,2013年发布。
- (QASent) 什么是Jeopardy模型?一个用于QA的准同步语法,2007年发布。
对话系统(Dialogue Systems)
- (Ubuntu Dialogue Corpus) Ubuntu对话语料库:一个用于非结构化多轮对话系统研究的大型数据集,2015年发布。
目标导向对话系统(Goal-Oriented Dialogue Systems)
- (Frames) Frames: 一个用于为目标导向对话系统添加记忆的语料库,2016年发布。
- (DSTC 2 & 3) 对话状态跟踪挑战2 & 3,2013年发布。
搜集汇总
数据集介绍

构建方式
MS MARCO数据集是为机器阅读理解任务而构建的,其数据来源于真实用户的查询和Bing搜索引擎的搜索结果。研究人员通过人工生成问题和答案对,确保了数据的高质量和多样性。该数据集涵盖了多种类型的查询,包括事实性问题和复杂的问题,旨在模拟真实世界的问答场景。
特点
MS MARCO数据集的特点在于其大规模和多样性。它包含了超过100万条问题和答案对,涵盖了广泛的领域和主题。数据集中的问题类型多样,既有简单的事实性问题,也有需要推理和理解的复杂问题。此外,答案的形式也多样化,包括短文本、段落和列表等,为机器阅读理解任务提供了丰富的训练和测试资源。
使用方法
MS MARCO数据集的使用方法主要包括数据下载、预处理和模型训练。用户可以从官方网站下载数据集,并根据任务需求进行预处理,如分词、去除停用词等。随后,可以使用该数据集训练和评估各种机器阅读理解模型,如基于注意力机制的模型和预训练语言模型。通过该数据集,研究人员可以评估模型在真实场景下的表现,并推动机器阅读理解技术的发展。
背景与挑战
背景概述
MS MARCO数据集于2016年由微软研究院推出,旨在推动机器阅读理解领域的发展。该数据集通过模拟真实世界的搜索查询,提供了大量由人工生成的问答对,涵盖了广泛的领域和主题。MS MARCO的核心研究问题是如何让机器更好地理解和回答自然语言问题,从而提升搜索引擎的智能化水平。该数据集在自然语言处理领域具有重要影响力,尤其是在问答系统和信息检索领域,推动了多项前沿研究和技术突破。
当前挑战
MS MARCO数据集面临的挑战主要集中在两个方面。首先,问答系统的复杂性要求模型不仅能够理解问题的表面含义,还需具备深层次的推理能力,以处理隐含信息和复杂语境。其次,数据集的构建过程中,如何确保问答对的质量和多样性是一个关键问题。由于数据来源于真实用户的搜索查询,噪声和不一致性难以避免,这对数据清洗和标注提出了极高的要求。此外,如何平衡数据集的规模与标注成本,也是构建过程中需要解决的重要挑战。
常用场景
经典使用场景
MS MARCO数据集广泛应用于机器阅读理解任务,特别是在开放域问答系统中。其独特的优势在于其问题来源于真实的用户查询,答案则通过人工标注生成,这使得模型能够更好地理解自然语言中的复杂语义和上下文关系。通过该数据集,研究者可以训练和评估模型在真实场景下的表现,从而推动问答系统的发展。
解决学术问题
MS MARCO数据集解决了机器阅读理解领域中的关键问题,即如何让模型从大规模文本中准确提取信息并生成简洁的答案。该数据集通过提供多样化的查询和丰富的上下文信息,帮助研究者开发出能够处理复杂语义和长文本的模型。这不仅提升了问答系统的性能,还为自然语言处理领域提供了新的研究方向。
衍生相关工作
MS MARCO数据集催生了许多经典的研究工作,例如基于BERT的问答模型和基于Transformer的阅读理解模型。这些工作不仅显著提升了问答系统的性能,还为自然语言处理领域提供了新的技术框架。此外,该数据集还推动了多任务学习和迁移学习在问答系统中的应用,为后续研究奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



