badokorach/NewQA
收藏Hugging Face2023-07-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/badokorach/NewQA
下载链接
链接失效反馈官方服务:
资源简介:
斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由众包工作者在维基百科文章上提出问题,每个问题的答案是对应阅读段落中的一段文本,或者问题可能无法回答。数据集包含训练集和验证集,分别有87599和10570个样本。数据集的字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为35.14 MB,生成的数据集大小为89.92 MB,总磁盘使用量为125.06 MB。
提供机构:
badokorach
原始信息汇总
数据集概述
数据集名称
- 名称: SQuAD
数据集创建
- 标注创建者: 众包
- 语言创建者: 众包和现有资源
语言信息
- 语言: 英语
- 多语言性: 单语种
许可信息
- 许可证: CC-BY-4.0
数据集大小
- 大小分类: 10K<n<100K
数据源
- 源数据集: 扩展自维基百科
任务类别
- 任务类别: 问答
- 任务ID: 抽取式问答
训练与评估索引
- 配置: plain_text
- 任务: 问答
- 任务ID: extractive_question_answering
- 分割:
- 训练分割: train
- 评估分割: validation
- 列映射:
- 问题: question
- 上下文: context
- 答案:
- 文本: text
- 答案开始位置: answer_start
- 评估指标:
- 类型: squad
- 名称: SQuAD
数据集信息
- 特征:
- id: 字符串类型
- title: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers:
- 文本: 字符串类型
- 答案开始位置: int32类型
- 配置名称: plain_text
- 分割:
- 训练:
- 字节数: 79317110
- 示例数: 87599
- 验证:
- 字节数: 10472653
- 示例数: 10570
- 训练:
- 下载大小: 35142551字节
- 数据集大小: 89789763字节



