five

FINNUMBER/MCQA_ORIGINAL

收藏
Hugging Face2023-12-25 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/FINNUMBER/MCQA_ORIGINAL
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: doc_id dtype: string - name: doc_title dtype: string - name: doc_source dtype: string - name: doc_published dtype: int64 - name: created dtype: string - name: doc_class struct: - name: class dtype: string - name: code dtype: string - name: paragraphs list: - name: context dtype: string - name: context_id dtype: string - name: qas list: - name: answer struct: - name: answer_end dtype: 'null' - name: answer_start dtype: 'null' - name: cell_coordinates dtype: 'null' - name: cell_text dtype: 'null' - name: clue_start dtype: int64 - name: clue_text dtype: string - name: options sequence: string - name: source dtype: string - name: text dtype: string - name: qa_type dtype: int64 - name: question dtype: string - name: question_id dtype: string - name: tbs dtype: 'null' splits: - name: train num_bytes: 17383989 num_examples: 5831 - name: test num_bytes: 3465286 num_examples: 1142 download_size: 8244905 dataset_size: 20849275 --- # Dataset Card for "MCQA_ORIGINAL" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项: - 配置名称:默认(default) 数据文件: - 拆分(split):训练集(train),路径:data/train-* - 拆分(split):测试集(test),路径:data/test-* 数据集信息: 特征字段: - 名称:文档ID(doc_id),数据类型(dtype):字符串(string) - 名称:文档标题(doc_title),数据类型:字符串 - 名称:文档来源(doc_source),数据类型:字符串 - 名称:文档发布时间(doc_published),数据类型:64位整数(int64) - 名称:创建时间(created),数据类型:字符串 - 名称:文档类别(doc_class),结构体(struct): - 名称:类别名称(class),数据类型:字符串 - 名称:类别代码(code),数据类型:字符串 - 名称:段落(paragraphs),列表(list): - 名称:上下文文本(context),数据类型:字符串 - 名称:上下文ID(context_id),数据类型:字符串 - 名称:问答对(qas),列表: - 名称:答案(answer),结构体: - 名称:答案结束位置(answer_end),数据类型:空值(null) - 名称:答案开始位置(answer_start),数据类型:空值 - 名称:单元格坐标(cell_coordinates),数据类型:空值 - 名称:单元格文本(cell_text),数据类型:空值 - 名称:线索起始位置(clue_start),数据类型:64位整数 - 名称:线索文本(clue_text),数据类型:字符串 - 名称:选项(options),序列(sequence):字符串 - 名称:来源(source),数据类型:字符串 - 名称:文本(text),数据类型:字符串 - 名称:问答类型(qa_type),数据类型:64位整数 - 名称:问题(question),数据类型:字符串 - 名称:问题ID(question_id),数据类型:字符串 - 名称:tbs,数据类型:空值(null) 数据集拆分: - 名称:训练集(train),字节数:17383989,样本数:5831 - 名称:测试集(test),字节数:3465286,样本数:1142 下载大小:8244905 数据集总大小:20849275 # 「MCQA_ORIGINAL」数据集卡片(Dataset Card) [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
FINNUMBER
原始信息汇总

数据集概述

配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 测试集:路径为 data/test-*

数据特征

  • doc_id:文档ID,数据类型为字符串
  • doc_title:文档标题,数据类型为字符串
  • doc_source:文档来源,数据类型为字符串
  • doc_published:文档发布时间,数据类型为整数
  • created:创建时间,数据类型为字符串
  • doc_class:文档分类,包含以下结构:
    • class:分类名称,数据类型为字符串
    • code:分类代码,数据类型为字符串
  • paragraphs:段落信息,包含以下列表:
    • context:上下文内容,数据类型为字符串
    • context_id:上下文ID,数据类型为字符串
    • qas:问题与答案,包含以下列表:
      • answer:答案信息,包含以下结构:
        • answer_end:答案结束位置,数据类型为空
        • answer_start:答案开始位置,数据类型为空
        • cell_coordinates:单元格坐标,数据类型为空
        • cell_text:单元格文本,数据类型为空
        • clue_start:线索开始位置,数据类型为整数
        • clue_text:线索文本,数据类型为字符串
        • options:选项,数据类型为字符串序列
        • source:来源,数据类型为字符串
        • text:文本,数据类型为字符串
      • qa_type:问题类型,数据类型为整数
      • question:问题,数据类型为字符串
      • question_id:问题ID,数据类型为字符串
    • tbs:数据类型为空

数据分割

  • 训练集
    • 字节数:17383989
    • 样本数:5831
  • 测试集
    • 字节数:3465286
    • 样本数:1142

数据集大小

  • 下载大小:8244905 字节
  • 数据集大小:20849275 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作