vincentleebang/EUREQA
收藏Hugging Face2024-04-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vincentleebang/EUREQA
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: idx
dtype: int32
- name: question
sequence: string
- name: answer
dtype: string
- name: entities
sequence: string
- name: relation
sequence: string
- name: facts
sequence:
sequence: string
- name: entity_masks
sequence: string
splits:
- name: questions_hard_5
num_bytes: 1454058
num_examples: 1363
- name: questions_hard_4
num_bytes: 259977
num_examples: 300
- name: questions_hard_3
num_bytes: 203817
num_examples: 300
- name: questions_hard_2
num_bytes: 146878
num_examples: 300
- name: questions_hard_1
num_bytes: 94068
num_examples: 300
- name: questions_normal_5
num_bytes: 467947
num_examples: 428
download_size: 1145480
dataset_size: 2626745
configs:
- config_name: default
data_files:
- split: questions_hard_5
path: data/questions_hard_5-*
- split: questions_hard_4
path: data/questions_hard_4-*
- split: questions_hard_3
path: data/questions_hard_3-*
- split: questions_hard_2
path: data/questions_hard_2-*
- split: questions_hard_1
path: data/questions_hard_1-*
- split: questions_normal_5
path: data/questions_normal_5-*
---
数据集信息:
特征项:
- 名称:索引(idx),数据类型:32位整型
- 名称:问题(question),数据类型:字符串序列
- 名称:答案(answer),数据类型:字符串
- 名称:实体(entities),数据类型:字符串序列
- 名称:关系(relation),数据类型:字符串序列
- 名称:事实(facts),数据类型:嵌套字符串序列(即序列的序列)
- 名称:实体掩码(entity_masks),数据类型:字符串序列
数据集划分:
- 子集名称:困难问题子集5(questions_hard_5),字节占用量:1454058,样本总数:1363
- 子集名称:困难问题子集4(questions_hard_4),字节占用量:259977,样本总数:300
- 子集名称:困难问题子集3(questions_hard_3),字节占用量:203817,样本总数:300
- 子集名称:困难问题子集2(questions_hard_2),字节占用量:146878,样本总数:300
- 子集名称:困难问题子集1(questions_hard_1),字节占用量:94068,样本总数:300
- 子集名称:常规问题子集5(questions_normal_5),字节占用量:467947,样本总数:428
整体下载大小:1145480,数据集总占用大小:2626745
数据集配置:
- 配置名称:default(默认配置)
数据文件映射:
- 对应划分:困难问题子集5(questions_hard_5),数据文件路径:data/questions_hard_5-*
- 对应划分:困难问题子集4(questions_hard_4),数据文件路径:data/questions_hard_4-*
- 对应划分:困难问题子集3(questions_hard_3),数据文件路径:data/questions_hard_3-*
- 对应划分:困难问题子集2(questions_hard_2),数据文件路径:data/questions_hard_2-*
- 对应划分:困难问题子集1(questions_hard_1),数据文件路径:data/questions_hard_1-*
- 对应划分:常规问题子集5(questions_normal_5),数据文件路径:data/questions_normal_5-*
提供机构:
vincentleebang
原始信息汇总
数据集概述
数据集特征
- idx: 数据类型为 int32。
- question: 数据类型为字符串序列。
- answer: 数据类型为字符串。
- entities: 数据类型为字符串序列。
- relation: 数据类型为字符串序列。
- facts: 数据类型为字符串序列的序列。
- entity_masks: 数据类型为字符串序列。
数据集分割
- questions_hard_5: 包含1363个示例,占用1454058字节。
- questions_hard_4: 包含300个示例,占用259977字节。
- questions_hard_3: 包含300个示例,占用203817字节。
- questions_hard_2: 包含300个示例,占用146878字节。
- questions_hard_1: 包含300个示例,占用94068字节。
- questions_normal_5: 包含428个示例,占用467947字节。
数据集大小
- 下载大小: 1145480字节。
- 数据集总大小: 2626745字节。
配置文件
- config_name: default
- data_files:
- split: questions_hard_5, 路径: data/questions_hard_5-*
- split: questions_hard_4, 路径: data/questions_hard_4-*
- split: questions_hard_3, 路径: data/questions_hard_3-*
- split: questions_hard_2, 路径: data/questions_hard_2-*
- split: questions_hard_1, 路径: data/questions_hard_1-*
- split: questions_normal_5, 路径: data/questions_normal_5-*



