five

SQuAD

收藏
github2018-09-18 更新2024-05-31 收录
下载链接:
https://github.com/pnpnpn/awesome-ml-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
斯坦福问答数据集(SQuAD)是一个新的阅读理解数据集,由众包工作者在一批维基百科文章上提出的问题组成,每个问题的答案都是相应阅读文章中的一段文本。SQuAD包含超过10万个问题-答案对,涉及500多篇文章,比之前的阅读理解数据集大得多。

The Stanford Question Answering Dataset (SQuAD) is a novel reading comprehension dataset, comprising questions posed by crowdworkers on a set of Wikipedia articles, with each answer being a segment of text from the corresponding reading passage. SQuAD encompasses over 100,000 question-answer pairs across more than 500 articles, significantly larger than previous reading comprehension datasets.
创建时间:
2016-04-29
原始信息汇总

数据集概述

1. Semantic Scholar Corpus

  • 领域: 计算机科学、神经科学、生物医学
  • 规模: 超过3900万篇研究论文

2. SQuAD (Stanford Question Answering Dataset)

  • 类型: 阅读理解数据集
  • 规模: 100,000+问题答案对,500+文章

3. Chinese Text Project

  • 类型: 古代中文文本数据库
  • 规模: 超过三十万标题,五亿字符

4. OpenSubtitles

  • 类型: 电影字幕数据集
  • 规模: 65种语言,1,850对文本,2,793,243文件,17.09G字符,2.60G句子片段

5. Visual7W (Visual Question Answering Dataset)

  • 类型: 视觉问答数据集
  • 规模: 47,300 COCO图像,327,939 QA对,1,311,756多选题,561,459对象定位

6. Microsoft Sequential Image Narrative Dataset (SIND)

  • 类型: 视觉叙事数据集
  • 规模: 81,743独特照片,20,211序列

7. 1 Billion Word Language Model Benchmark

  • 类型: 语言模型基准数据集
  • 规模: 基于WMT 2011新闻爬虫数据,包含多种n-gram模型

8. Cornell Movie-Dialogs Corpus

  • 类型: 电影对话数据集
  • 规模: 220,579对话交换,9,035角色,304,713语句

9. PPDB: The Paraphrase Database

  • 类型: 释义数据库
  • 规模: 超过2.2亿释义对,包括7300万短语和800万词汇释义,1.4亿释义模式

10. Wordbank: An open database of childrens vocabulary development

  • 类型: 儿童词汇发展数据库
  • 规模: 63,386儿童,71,003次CDI管理,23种语言,44种工具
搜集汇总
数据集介绍
main_image_url
构建方式
SQuAD数据集的构建,是基于维基百科文章的 crowdworkers 提问,并针对每个问题设计了一个答案,该答案为文本中的一个片段或跨度。该数据集包含500多篇文章,超过10万的问题-答案对,构建过程中确保了问题的多样性和答案的准确性。
特点
SQuAD数据集显著的特点在于其规模庞大,相比之前的阅读理解数据集有显著的增长。它不仅包含了丰富的问题类型,而且答案均为对应的阅读材料中的具体文本片段,这为机器阅读理解任务的模型训练提供了极具挑战性的基准。
使用方法
使用SQuAD数据集时,用户可以将其作为机器学习模型的训练数据,通过问题-答案对来优化模型的阅读理解能力。此外,数据集的开放性使得研究者可以自由探索和改进各种阅读理解算法,推动该领域的技术进步。
背景与挑战
背景概述
SQuAD数据集,全称为Stanford Question Answering Dataset,由斯坦福大学的研究团队于2016年创建。该数据集旨在推动阅读理解领域的研究,其包含了由众包工作者针对维基百科文章提出的问题及答案。SQuAD的数据规模之大,远超以往的阅读理解数据集,它包含了超过10万的问题答案对,覆盖了500多篇文章。SQuAD的出现为自然语言处理领域带来了新的研究视角,对提升机器阅读理解能力具有重要影响。
当前挑战
在构建SQuAD数据集的过程中,研究人员面临了多方面的挑战。首先,如何确保问题与答案的准确匹配是一个关键问题。其次,构建大规模数据集时,数据的质量控制也是一个重大挑战。此外,SQuAD数据集在推动阅读理解研究的同时,也对模型在理解复杂语言结构和语义方面提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,SQuAD数据集以其独特的阅读理解任务,被广泛用于评估模型对文本理解的深度。该数据集由问题与对应的答案片段构成,问题基于维基百科文章,答案为文章中的特定文本段。研究者通常使用该数据集来训练和测试模型对长篇文本的理解能力,以及模型定位答案的准确性。
解决学术问题
SQuAD数据集解决了学术研究中如何准确评估机器阅读理解能力的问题。在此之前,缺乏大规模且标准化的数据集,导致研究者在评估模型性能时缺乏一致性。SQuAD的引入,为学术界提供了一个统一的评价标准,极大地推动了机器阅读理解技术的发展。
衍生相关工作
基于SQuAD数据集,学术界衍生出了众多相关工作,包括扩展数据集、改进的评估指标以及各种阅读理解模型。这些工作不仅加深了对机器阅读理解机制的理解,也推动了相关技术的进步,为人工智能领域的发展做出了贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作