wisenut-nlp-team/aihub_mrc_books
收藏Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wisenut-nlp-team/aihub_mrc_books
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个基于书籍资料的机器阅读理解(MRC)数据集,包含标题、机构、年份、内容ID、KDC、上下文、问题、ID、是否不可能和答案等特征。数据集分为训练集和验证集,分别包含900,000和50,000个示例。数据集的下载大小为186,230,823字节,数据集大小为1,419,035,803字节。注释由众包创建,语言创建者为发现,许可证为CC-BY-4.0,数据集名称为wisenut-nlp-team/aihub_mrc_books,大小类别为10M<n<100M,源数据集为原始数据,标签为MRC,任务类别为问答,任务ID为抽取式问答和开放域问答。
该数据集是一个基于书籍资料的机器阅读理解(MRC)数据集,包含标题、机构、年份、内容ID、KDC、上下文、问题、ID、是否不可能和答案等特征。数据集分为训练集和验证集,分别包含900,000和50,000个示例。数据集的下载大小为186,230,823字节,数据集大小为1,419,035,803字节。注释由众包创建,语言创建者为发现,许可证为CC-BY-4.0,数据集名称为wisenut-nlp-team/aihub_mrc_books,大小类别为10M<n<100M,源数据集为原始数据,标签为MRC,任务类别为问答,任务ID为抽取式问答和开放域问答。
提供机构:
wisenut-nlp-team
原始信息汇总
数据集概述
数据集基本信息
- 名称: mrc_aihub_books
- 预览名称: wisenut-nlp-team/aihub_mrc_books
- 大小: 10M<n<100M
- 来源: 原始数据
- 许可证: cc-by-4.0
数据集特征
- 特征列表:
title: 字符串agency: 字符串year: 字符串content_id: 字符串kdc: 字符串context: 字符串question: 字符串id: 整数64位is_impossible: 布尔值answers: 结构体answer_start: 整数64位text: 字符串
数据集分割
- 训练集:
- 大小: 1344986838 字节
- 示例数: 900000
- 验证集:
- 大小: 74048965 字节
- 示例数: 50000
下载和数据集大小
- 下载大小: 186230823 字节
- 数据集总大小: 1419035803 字节
任务和标签
- 任务类别: 问答
- 任务ID:
- extractive-qa
- open-domain-qa
语言和创建者
- 语言: 未指定
- 注释创建者: 众包
- 语言创建者: 发现
标签
- 标签:
- mrc



