lhoestq/custom_squad

Name: lhoestq/custom_squad
Creator: lhoestq
Published: 2022-10-25 09:50:53
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lhoestq/custom_squad

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是原始SQuAD数据集的一个自定义副本，用于展示数据集存储库。数据与原始数据集相同。斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由众包人员在一组维基百科文章上提出的问题组成，每个问题的答案是对应阅读段落中的一段文本，或者问题可能是无法回答的。

提供机构：

lhoestq

原始信息汇总

数据集概述

数据集基本信息

名称: SQuAD
语言: 英语 (en)
许可证: CC-BY-4.0
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自 Wikipedia

数据集内容

数据集摘要

描述: SQuAD（Stanford Question Answering Dataset）是一个阅读理解数据集，包含由众包工作者提出的关于一系列维基百科文章的问题。每个问题的答案是从相关阅读段落中提取的文本片段，或者问题可能无法回答。

支持的任务

任务类别: 问答
任务ID: 抽取式问答 (extractive-qa)

数据集结构

数据实例

示例: json { "answers": { "answer_start": [1], "text": ["This is a test text"] }, "context": "This is a test context.", "id": "1", "question": "Is this a test?", "title": "train test" }

数据字段

字段:
- id: 字符串
- title: 字符串
- context: 字符串
- question: 字符串
- answers: 字典，包含:
  - text: 字符串
  - answer_start: 整数

数据分割样本大小

分割:
- train: 87599
- validation: 10570

数据集创建

来源数据

来源: 扩展自 Wikipedia

注释

创建方式: 众包

语言创建

创建方式: 众包和发现

个人和敏感信息

信息: 未提供详细信息

使用数据集的考虑

社会影响

影响: 未提供详细信息

偏见讨论

讨论: 未提供详细信息

其他已知限制

限制: 未提供详细信息

附加信息

数据集管理员

管理员: 未提供详细信息

许可证信息

许可证: CC-BY-4.0

引用信息

引用: bibtex @article{2016arXiv160605250R, author = {{Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev}, Konstantin and {Liang}, Percy}, title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}", journal = {arXiv e-prints}, year = 2016, eid = {arXiv:1606.05250}, pages = {arXiv:1606.05250}, archivePrefix = {arXiv}, eprint = {1606.05250}, }

贡献者

贡献者: @lewtun, @albertvillanova, @patrickvonplaten, @thomwolf

5,000+

优质数据集

54 个

任务类型

进入经典数据集