CoQA, QuAC, HotpotQA, SWAG, DNC, OpenBookQA, RecipeQA, CLOTH, DuoRC, SQuAD2.0, CliCR, FEVER, MultiRC, ProPara, ARC

github2023-07-12 更新2024-05-31 收录

下载链接：

https://github.com/penzant/nlu_datasets_2018

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了2018年提出的多个自然语言理解数据集，包括CoQA、QuAC等，每个数据集都有其特定的任务和应用场景，如阅读理解、多选题、文本蕴含等。

This repository compiles multiple natural language understanding datasets proposed in 2018, including CoQA, QuAC, and others. Each dataset is designed for specific tasks and application scenarios, such as reading comprehension, multiple-choice questions, and textual entailment.

创建时间：

2018-09-26

原始信息汇总

数据集概述

1. CoQA

任务: 阅读理解 (RC)
风格: 自由形式 (+无答案)
大小: 127k
来源: 各种文章
发表: TACL?
相似数据集: QuAC

2. QuAC

任务: 阅读理解 (RC)
风格: 提取 (+无答案)
大小: 100k
来源: Wikipedia
发表: EMNLP2018
相似数据集: CoQA

3. HotpotQA

任务: 阅读理解 (RC)
风格: 提取
大小: 113k
来源: Wikipedia
发表: EMNLP2018
相似数据集: QAngaroo

4. SWAG

任务: 问答 (QA)
风格: 多项选择
大小: 113k
来源: 视频字幕
发表: EMNLP2018

5. DNC

任务: 自然语言推理 (NLI)
风格: 文本蕴含
大小: 570k
来源: NLP任务
发表: EMNLP2018
相似数据集: SNLI, MultiNLI

6. OpenBookQA

任务: 问答 (QA)
风格: 多项选择
大小: 6k
来源: 科学事实
发表: EMNLP2018
相似数据集: ARC

7. RecipeQA

任务: 阅读理解+ (RC+)
风格: 各种
大小: 36k
来源: 食谱
发表: EMNLP2018
相似数据集: TextbookQA, FigureQA

8. CLOTH

任务: 阅读理解 (RC)
风格: 填空
大小: 99k
来源: 英语考试
发表: EMNLP2018
相似数据集: RACE

9. DuoRC

任务: 阅读理解 (RC)
风格: 提取
大小: 186k
来源: 电影情节
发表: ACL2018
相似数据集: NarrativeQA

10. SQuAD2.0

任务: 阅读理解 (RC)
风格: 提取 (+无答案)
大小: 150k
来源: Wikipedia
发表: ACL2018
相似数据集: NewsQA

11. CliCR

任务: 阅读理解 (RC)
风格: 填空
大小: 100k
来源: 临床案例文本
发表: NAACL2018

12. FEVER

任务: 自然语言推理? (NLI?)
风格: 事实验证
大小: 185k
来源: Wikipedia
发表: NAACL2018

13. MultiRC

任务: 阅读理解 (RC)
风格: 多项选择
大小: 6k+
来源: 各种文章
发表: NAACL2018
相似数据集: MCTest

14. ProPara

任务: 阅读理解 (RC)
风格: 各种
大小: 2k
来源: 程序性文本
发表: NAACL2018
相似数据集: bAbI, SCoNE

15. ARC

任务: 阅读理解 (RC)
风格: 多项选择
大小: 8k
来源: 科学考试
发表: ?
相似数据集: -

以上数据集均在2018年提出，涵盖了阅读理解、问答、自然语言推理等多种任务类型。

搜集汇总

数据集介绍

构建方式

CoQA数据集构建于2018年，旨在推动对话式问答系统的发展。该数据集通过收集来自多种来源的文章，并在此基础上生成自由形式的对话问题，涵盖了127,000个问答对。每个问题都附有上下文，且部分问题允许“无答案”选项，以模拟真实对话中的不确定性。数据集的构建过程注重对话的连贯性和多样性，确保了问答对的自然流畅。

特点

CoQA数据集的特点在于其对话式问答的形式，问题类型多样且允许“无答案”选项，这为模型提供了更具挑战性的任务。数据集的上下文来源于多种类型的文章，包括新闻、故事和百科内容，确保了数据的广泛性和代表性。此外，CoQA的问答对具有多轮对话的特性，能够有效评估模型在连续对话中的表现。

使用方法

CoQA数据集可用于训练和评估对话式问答模型。研究人员可以通过加载数据集，利用上下文和问题对模型进行训练，并通过生成的答案评估模型的性能。数据集提供了详细的评估脚本和基准结果，便于与其他模型进行对比。此外，CoQA支持多种编程语言接口，方便集成到现有的自然语言处理框架中。

背景与挑战

背景概述

2018年，自然语言理解（NLU）领域迎来了一系列重要的数据集发布，这些数据集旨在推动问答系统、阅读理解、自然语言推理等任务的发展。其中，CoQA、QuAC、HotpotQA等数据集由斯坦福大学、艾伦人工智能研究所等知名机构主导开发，涵盖了从自由形式问答到多跳推理等多种任务类型。这些数据集的创建时间集中在2018年，主要研究人员包括Rajpurkar、Zellers等学者，其核心研究问题在于如何通过大规模、多样化的数据提升模型在复杂语言任务中的表现。这些数据集对NLU领域的影响力深远，为后续研究提供了丰富的基准和实验平台。

当前挑战

这些数据集在解决领域问题时面临多重挑战。首先，问答任务（如CoQA和QuAC）需要模型处理对话式问题，涉及上下文理解和无答案场景的识别，这对模型的泛化能力提出了更高要求。其次，多跳推理任务（如HotpotQA）要求模型能够整合多源信息进行复杂推理，这对数据标注和模型设计提出了挑战。在构建过程中，数据来源的多样性和质量控制成为关键问题，例如RecipeQA需要处理多模态数据（文本和图像），而CliCR则需从临床文本中提取信息，这对数据清洗和标注的精确性提出了更高要求。此外，部分数据集（如ARC）还涉及科学知识的深度理解，进一步增加了任务的复杂性。

常用场景

经典使用场景

在自然语言处理领域，CoQA数据集因其对话式问答的特性而被广泛应用于机器阅读理解的研究中。该数据集通过提供自由形式的问答对，使得研究者能够探索模型在理解上下文和生成连贯回答方面的能力。这种对话式的交互模拟了真实世界中的信息检索场景，为模型提供了丰富的训练和测试环境。

实际应用

在实际应用中，CoQA数据集的应用场景包括智能客服、虚拟助手和在线教育平台。通过对话式问答，这些系统能够更自然地与用户互动，提供个性化的信息检索服务。例如，在智能客服中，系统可以根据用户的提问历史，生成更加精准的回答，提升用户体验。这种应用不仅提高了信息检索的效率，还增强了人机交互的自然性。

衍生相关工作

CoQA数据集的推出催生了一系列相关研究，特别是在对话式问答和上下文理解领域。例如，QuAC数据集进一步扩展了对话式问答的复杂性，引入了多轮对话和更复杂的上下文依赖。此外，HotpotQA数据集则专注于多跳推理，要求模型在多个文档中进行信息整合。这些衍生工作不仅丰富了机器阅读理解的研究内容，还推动了模型在处理复杂问答任务上的性能提升。

以上内容由遇见数据集搜集并总结生成