five

vincentleebang/EUREQA

收藏
Hugging Face2024-04-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vincentleebang/EUREQA
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: idx dtype: int32 - name: question sequence: string - name: answer dtype: string - name: entities sequence: string - name: relation sequence: string - name: facts sequence: sequence: string - name: entity_masks sequence: string splits: - name: questions_hard_5 num_bytes: 1454058 num_examples: 1363 - name: questions_hard_4 num_bytes: 259977 num_examples: 300 - name: questions_hard_3 num_bytes: 203817 num_examples: 300 - name: questions_hard_2 num_bytes: 146878 num_examples: 300 - name: questions_hard_1 num_bytes: 94068 num_examples: 300 - name: questions_normal_5 num_bytes: 467947 num_examples: 428 download_size: 1145480 dataset_size: 2626745 configs: - config_name: default data_files: - split: questions_hard_5 path: data/questions_hard_5-* - split: questions_hard_4 path: data/questions_hard_4-* - split: questions_hard_3 path: data/questions_hard_3-* - split: questions_hard_2 path: data/questions_hard_2-* - split: questions_hard_1 path: data/questions_hard_1-* - split: questions_normal_5 path: data/questions_normal_5-* ---

数据集信息: 特征项: - 名称:索引(idx),数据类型:32位整型 - 名称:问题(question),数据类型:字符串序列 - 名称:答案(answer),数据类型:字符串 - 名称:实体(entities),数据类型:字符串序列 - 名称:关系(relation),数据类型:字符串序列 - 名称:事实(facts),数据类型:嵌套字符串序列(即序列的序列) - 名称:实体掩码(entity_masks),数据类型:字符串序列 数据集划分: - 子集名称:困难问题子集5(questions_hard_5),字节占用量:1454058,样本总数:1363 - 子集名称:困难问题子集4(questions_hard_4),字节占用量:259977,样本总数:300 - 子集名称:困难问题子集3(questions_hard_3),字节占用量:203817,样本总数:300 - 子集名称:困难问题子集2(questions_hard_2),字节占用量:146878,样本总数:300 - 子集名称:困难问题子集1(questions_hard_1),字节占用量:94068,样本总数:300 - 子集名称:常规问题子集5(questions_normal_5),字节占用量:467947,样本总数:428 整体下载大小:1145480,数据集总占用大小:2626745 数据集配置: - 配置名称:default(默认配置) 数据文件映射: - 对应划分:困难问题子集5(questions_hard_5),数据文件路径:data/questions_hard_5-* - 对应划分:困难问题子集4(questions_hard_4),数据文件路径:data/questions_hard_4-* - 对应划分:困难问题子集3(questions_hard_3),数据文件路径:data/questions_hard_3-* - 对应划分:困难问题子集2(questions_hard_2),数据文件路径:data/questions_hard_2-* - 对应划分:困难问题子集1(questions_hard_1),数据文件路径:data/questions_hard_1-* - 对应划分:常规问题子集5(questions_normal_5),数据文件路径:data/questions_normal_5-*
提供机构:
vincentleebang
原始信息汇总

数据集概述

数据集特征

  • idx: 数据类型为 int32。
  • question: 数据类型为字符串序列。
  • answer: 数据类型为字符串。
  • entities: 数据类型为字符串序列。
  • relation: 数据类型为字符串序列。
  • facts: 数据类型为字符串序列的序列。
  • entity_masks: 数据类型为字符串序列。

数据集分割

  • questions_hard_5: 包含1363个示例,占用1454058字节。
  • questions_hard_4: 包含300个示例,占用259977字节。
  • questions_hard_3: 包含300个示例,占用203817字节。
  • questions_hard_2: 包含300个示例,占用146878字节。
  • questions_hard_1: 包含300个示例,占用94068字节。
  • questions_normal_5: 包含428个示例,占用467947字节。

数据集大小

  • 下载大小: 1145480字节。
  • 数据集总大小: 2626745字节。

配置文件

  • config_name: default
  • data_files:
    • split: questions_hard_5, 路径: data/questions_hard_5-*
    • split: questions_hard_4, 路径: data/questions_hard_4-*
    • split: questions_hard_3, 路径: data/questions_hard_3-*
    • split: questions_hard_2, 路径: data/questions_hard_2-*
    • split: questions_hard_1, 路径: data/questions_hard_1-*
    • split: questions_normal_5, 路径: data/questions_normal_5-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作