Atipico1/popQA_preprocessed
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/popQA_preprocessed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如id、subj、prop、obj等,这些特征分别代表不同的数据类型,如int64、string等。数据集还包含两个主要的分割部分:train和test,分别有10000和4267个例子。此外,数据集还包含一些额外的信息,如download_size和dataset_size,分别表示下载大小和数据集大小。
该数据集包含多个特征,如id、subj、prop、obj等,这些特征分别代表不同的数据类型,如int64、string等。数据集还包含两个主要的分割部分:train和test,分别有10000和4267个例子。此外,数据集还包含一些额外的信息,如download_size和dataset_size,分别表示下载大小和数据集大小。
提供机构:
Atipico1
原始信息汇总
数据集概述
数据特征
- id: 数据类型为
int64 - subj: 数据类型为
string - prop: 数据类型为
string - obj: 数据类型为
string - subj_id: 数据类型为
int64 - prop_id: 数据类型为
int64 - obj_id: 数据类型为
int64 - s_aliases: 数据类型为
string - o_aliases: 数据类型为
string - s_uri: 数据类型为
string - o_uri: 数据类型为
string - s_wiki_title: 数据类型为
string - o_wiki_title: 数据类型为
string - s_pop: 数据类型为
int64 - o_pop: 数据类型为
int64 - question: 数据类型为
string - answers: 数据类型为
sequence的string - ctxs: 数据类型为
list,包含以下子特征:- hasanswer: 数据类型为
bool - id: 数据类型为
string - score: 数据类型为
string - text: 数据类型为
string - title: 数据类型为
string
- hasanswer: 数据类型为
- query_embedding: 数据类型为
sequence的float32
数据分割
- train: 包含 10000 个样本,占用 100851601 字节
- test: 包含 4267 个样本,占用 43005541 字节
数据集大小
- 下载大小: 81260690 字节
- 数据集大小: 143857142 字节
配置
- default: 包含以下数据文件路径:
- train:
data/train-* - test:
data/test-*
- train:



