lhoestq/custom_squad
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lhoestq/custom_squad
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是原始SQuAD数据集的一个自定义副本,用于展示数据集存储库。数据与原始数据集相同。斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由众包人员在一组维基百科文章上提出的问题组成,每个问题的答案是对应阅读段落中的一段文本,或者问题可能是无法回答的。
提供机构:
lhoestq
原始信息汇总
数据集概述
数据集基本信息
- 名称: SQuAD
- 语言: 英语 (en)
- 许可证: CC-BY-4.0
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源数据集: 扩展自 Wikipedia
数据集内容
数据集摘要
- 描述: SQuAD(Stanford Question Answering Dataset)是一个阅读理解数据集,包含由众包工作者提出的关于一系列维基百科文章的问题。每个问题的答案是从相关阅读段落中提取的文本片段,或者问题可能无法回答。
支持的任务
- 任务类别: 问答
- 任务ID: 抽取式问答 (extractive-qa)
数据集结构
数据实例
- 示例: json { "answers": { "answer_start": [1], "text": ["This is a test text"] }, "context": "This is a test context.", "id": "1", "question": "Is this a test?", "title": "train test" }
数据字段
- 字段:
id: 字符串title: 字符串context: 字符串question: 字符串answers: 字典,包含:text: 字符串answer_start: 整数
数据分割样本大小
- 分割:
train: 87599validation: 10570
数据集创建
来源数据
- 来源: 扩展自 Wikipedia
注释
- 创建方式: 众包
语言创建
- 创建方式: 众包和发现
个人和敏感信息
- 信息: 未提供详细信息
使用数据集的考虑
社会影响
- 影响: 未提供详细信息
偏见讨论
- 讨论: 未提供详细信息
其他已知限制
- 限制: 未提供详细信息
附加信息
数据集管理员
- 管理员: 未提供详细信息
许可证信息
- 许可证: CC-BY-4.0
引用信息
- 引用: bibtex @article{2016arXiv160605250R, author = {{Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev}, Konstantin and {Liang}, Percy}, title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}", journal = {arXiv e-prints}, year = 2016, eid = {arXiv:1606.05250}, pages = {arXiv:1606.05250}, archivePrefix = {arXiv}, eprint = {1606.05250}, }



