SQuAD

github2018-09-18 更新2024-05-31 收录

下载链接：

https://github.com/pnpnpn/awesome-ml-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

斯坦福问答数据集（SQuAD）是一个新的阅读理解数据集，由众包工作者在一批维基百科文章上提出的问题组成，每个问题的答案都是相应阅读文章中的一段文本。SQuAD包含超过10万个问题-答案对，涉及500多篇文章，比之前的阅读理解数据集大得多。

The Stanford Question Answering Dataset (SQuAD) is a novel reading comprehension dataset, comprising questions posed by crowdworkers on a set of Wikipedia articles, with each answer being a segment of text from the corresponding reading passage. SQuAD encompasses over 100,000 question-answer pairs across more than 500 articles, significantly larger than previous reading comprehension datasets.

创建时间：

2016-04-29

原始信息汇总

数据集概述

1. Semantic Scholar Corpus

领域: 计算机科学、神经科学、生物医学
规模: 超过3900万篇研究论文

2. SQuAD (Stanford Question Answering Dataset)

类型: 阅读理解数据集
规模: 100,000+问题答案对，500+文章

3. Chinese Text Project

类型: 古代中文文本数据库
规模: 超过三十万标题，五亿字符

4. OpenSubtitles

类型: 电影字幕数据集
规模: 65种语言，1,850对文本，2,793,243文件，17.09G字符，2.60G句子片段

5. Visual7W (Visual Question Answering Dataset)

类型: 视觉问答数据集
规模: 47,300 COCO图像，327,939 QA对，1,311,756多选题，561,459对象定位

6. Microsoft Sequential Image Narrative Dataset (SIND)

类型: 视觉叙事数据集
规模: 81,743独特照片，20,211序列

7. 1 Billion Word Language Model Benchmark

类型: 语言模型基准数据集
规模: 基于WMT 2011新闻爬虫数据，包含多种n-gram模型

8. Cornell Movie-Dialogs Corpus

类型: 电影对话数据集
规模: 220,579对话交换，9,035角色，304,713语句

9. PPDB: The Paraphrase Database

类型: 释义数据库
规模: 超过2.2亿释义对，包括7300万短语和800万词汇释义，1.4亿释义模式

10. Wordbank: An open database of childrens vocabulary development

类型: 儿童词汇发展数据库
规模: 63,386儿童，71,003次CDI管理，23种语言，44种工具

搜集汇总

数据集介绍

构建方式

SQuAD数据集的构建，是基于维基百科文章的 crowdworkers 提问，并针对每个问题设计了一个答案，该答案为文本中的一个片段或跨度。该数据集包含500多篇文章，超过10万的问题-答案对，构建过程中确保了问题的多样性和答案的准确性。

特点

SQuAD数据集显著的特点在于其规模庞大，相比之前的阅读理解数据集有显著的增长。它不仅包含了丰富的问题类型，而且答案均为对应的阅读材料中的具体文本片段，这为机器阅读理解任务的模型训练提供了极具挑战性的基准。

使用方法

使用SQuAD数据集时，用户可以将其作为机器学习模型的训练数据，通过问题-答案对来优化模型的阅读理解能力。此外，数据集的开放性使得研究者可以自由探索和改进各种阅读理解算法，推动该领域的技术进步。

背景与挑战

背景概述

SQuAD数据集，全称为Stanford Question Answering Dataset，由斯坦福大学的研究团队于2016年创建。该数据集旨在推动阅读理解领域的研究，其包含了由众包工作者针对维基百科文章提出的问题及答案。SQuAD的数据规模之大，远超以往的阅读理解数据集，它包含了超过10万的问题答案对，覆盖了500多篇文章。SQuAD的出现为自然语言处理领域带来了新的研究视角，对提升机器阅读理解能力具有重要影响。

当前挑战

在构建SQuAD数据集的过程中，研究人员面临了多方面的挑战。首先，如何确保问题与答案的准确匹配是一个关键问题。其次，构建大规模数据集时，数据的质量控制也是一个重大挑战。此外，SQuAD数据集在推动阅读理解研究的同时，也对模型在理解复杂语言结构和语义方面提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，SQuAD数据集以其独特的阅读理解任务，被广泛用于评估模型对文本理解的深度。该数据集由问题与对应的答案片段构成，问题基于维基百科文章，答案为文章中的特定文本段。研究者通常使用该数据集来训练和测试模型对长篇文本的理解能力，以及模型定位答案的准确性。

解决学术问题

SQuAD数据集解决了学术研究中如何准确评估机器阅读理解能力的问题。在此之前，缺乏大规模且标准化的数据集，导致研究者在评估模型性能时缺乏一致性。SQuAD的引入，为学术界提供了一个统一的评价标准，极大地推动了机器阅读理解技术的发展。

衍生相关工作

基于SQuAD数据集，学术界衍生出了众多相关工作，包括扩展数据集、改进的评估指标以及各种阅读理解模型。这些工作不仅加深了对机器阅读理解机制的理解，也推动了相关技术的进步，为人工智能领域的发展做出了贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集