five

lhoestq/custom_squad

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lhoestq/custom_squad
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是原始SQuAD数据集的一个自定义副本,用于展示数据集存储库。数据与原始数据集相同。斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由众包人员在一组维基百科文章上提出的问题组成,每个问题的答案是对应阅读段落中的一段文本,或者问题可能是无法回答的。
提供机构:
lhoestq
原始信息汇总

数据集概述

数据集基本信息

  • 名称: SQuAD
  • 语言: 英语 (en)
  • 许可证: CC-BY-4.0
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源数据集: 扩展自 Wikipedia

数据集内容

数据集摘要

  • 描述: SQuAD(Stanford Question Answering Dataset)是一个阅读理解数据集,包含由众包工作者提出的关于一系列维基百科文章的问题。每个问题的答案是从相关阅读段落中提取的文本片段,或者问题可能无法回答。

支持的任务

  • 任务类别: 问答
  • 任务ID: 抽取式问答 (extractive-qa)

数据集结构

数据实例

  • 示例: json { "answers": { "answer_start": [1], "text": ["This is a test text"] }, "context": "This is a test context.", "id": "1", "question": "Is this a test?", "title": "train test" }

数据字段

  • 字段:
    • id: 字符串
    • title: 字符串
    • context: 字符串
    • question: 字符串
    • answers: 字典,包含:
      • text: 字符串
      • answer_start: 整数

数据分割样本大小

  • 分割:
    • train: 87599
    • validation: 10570

数据集创建

来源数据

  • 来源: 扩展自 Wikipedia

注释

  • 创建方式: 众包

语言创建

  • 创建方式: 众包和发现

个人和敏感信息

  • 信息: 未提供详细信息

使用数据集的考虑

社会影响

  • 影响: 未提供详细信息

偏见讨论

  • 讨论: 未提供详细信息

其他已知限制

  • 限制: 未提供详细信息

附加信息

数据集管理员

  • 管理员: 未提供详细信息

许可证信息

  • 许可证: CC-BY-4.0

引用信息

  • 引用: bibtex @article{2016arXiv160605250R, author = {{Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev}, Konstantin and {Liang}, Percy}, title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}", journal = {arXiv e-prints}, year = 2016, eid = {arXiv:1606.05250}, pages = {arXiv:1606.05250}, archivePrefix = {arXiv}, eprint = {1606.05250}, }

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作