five

wisenut-nlp-team/aihub_mrc_books

收藏
Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wisenut-nlp-team/aihub_mrc_books
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个基于书籍资料的机器阅读理解(MRC)数据集,包含标题、机构、年份、内容ID、KDC、上下文、问题、ID、是否不可能和答案等特征。数据集分为训练集和验证集,分别包含900,000和50,000个示例。数据集的下载大小为186,230,823字节,数据集大小为1,419,035,803字节。注释由众包创建,语言创建者为发现,许可证为CC-BY-4.0,数据集名称为wisenut-nlp-team/aihub_mrc_books,大小类别为10M<n<100M,源数据集为原始数据,标签为MRC,任务类别为问答,任务ID为抽取式问答和开放域问答。

该数据集是一个基于书籍资料的机器阅读理解(MRC)数据集,包含标题、机构、年份、内容ID、KDC、上下文、问题、ID、是否不可能和答案等特征。数据集分为训练集和验证集,分别包含900,000和50,000个示例。数据集的下载大小为186,230,823字节,数据集大小为1,419,035,803字节。注释由众包创建,语言创建者为发现,许可证为CC-BY-4.0,数据集名称为wisenut-nlp-team/aihub_mrc_books,大小类别为10M<n<100M,源数据集为原始数据,标签为MRC,任务类别为问答,任务ID为抽取式问答和开放域问答。
提供机构:
wisenut-nlp-team
原始信息汇总

数据集概述

数据集基本信息

  • 名称: mrc_aihub_books
  • 预览名称: wisenut-nlp-team/aihub_mrc_books
  • 大小: 10M<n<100M
  • 来源: 原始数据
  • 许可证: cc-by-4.0

数据集特征

  • 特征列表:
    • title: 字符串
    • agency: 字符串
    • year: 字符串
    • content_id: 字符串
    • kdc: 字符串
    • context: 字符串
    • question: 字符串
    • id: 整数64位
    • is_impossible: 布尔值
    • answers: 结构体
      • answer_start: 整数64位
      • text: 字符串

数据集分割

  • 训练集:
    • 大小: 1344986838 字节
    • 示例数: 900000
  • 验证集:
    • 大小: 74048965 字节
    • 示例数: 50000

下载和数据集大小

  • 下载大小: 186230823 字节
  • 数据集总大小: 1419035803 字节

任务和标签

  • 任务类别: 问答
  • 任务ID:
    • extractive-qa
    • open-domain-qa

语言和创建者

  • 语言: 未指定
  • 注释创建者: 众包
  • 语言创建者: 发现

标签

  • 标签:
    • mrc
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作