DeepPavlov/wizard_of_wikipedia
收藏Hugging Face2026-03-11 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/DeepPavlov/wizard_of_wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: corpus
features:
- name: id
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: test
num_bytes: 14774318
num_examples: 19697
- name: train
num_bytes: 121189583
num_examples: 165023
- name: valid
num_bytes: 14275162
num_examples: 19005
download_size: 94232724
dataset_size: 150239063
- config_name: qrels
features:
- name: query-id
dtype: string
- name: corpus-id
dtype: string
- name: score
dtype: int64
splits:
- name: test
num_bytes: 2137234
num_examples: 61489
- name: train
num_bytes: 43085706
num_examples: 1169958
- name: valid
num_bytes: 2143198
num_examples: 61807
download_size: 9212508
dataset_size: 47366138
- config_name: queries
features:
- name: id
dtype: string
- name: text
list:
- name: content
dtype: string
- name: role
dtype: string
- name: persona
dtype: string
- name: topic
dtype: string
splits:
- name: test
num_bytes: 8629046
num_examples: 8782
- name: train
num_bytes: 166124182
num_examples: 166787
- name: valid
num_bytes: 8688717
num_examples: 8806
download_size: 13631577
dataset_size: 183441945
configs:
- config_name: corpus
data_files:
- split: test
path: corpus/test-*
- split: train
path: corpus/train-*
- split: valid
path: corpus/valid-*
- config_name: qrels
data_files:
- split: test
path: qrels/test-*
- split: train
path: qrels/train-*
- split: valid
path: qrels/valid-*
- config_name: queries
data_files:
- split: test
path: queries/test-*
- split: train
path: queries/train-*
- split: valid
path: queries/valid-*
---
数据集信息:
- 配置名称:语料库(corpus)
特征:
- 字段名:ID(id),数据类型:字符串(string)
- 字段名:标题(title),数据类型:字符串(string)
- 字段名:文本(text),数据类型:字符串(string)
数据集划分:
- 划分名称:测试集(test),字节数:14774318,样本数量:19697
- 划分名称:训练集(train),字节数:121189583,样本数量:165023
- 划分名称:验证集(valid),字节数:14275162,样本数量:19005
下载总大小:94232724 字节
数据集总占用大小:150239063 字节
- 配置名称:相关性评分(qrels)
特征:
- 字段名:query-id,数据类型:字符串(string)
- 字段名:corpus-id,数据类型:字符串(string)
- 字段名:得分(score),数据类型:64位整数(int64)
数据集划分:
- 划分名称:测试集(test),字节数:2137234,样本数量:61489
- 划分名称:训练集(train),字节数:43085706,样本数量:1169958
- 划分名称:验证集(valid),字节数:2143198,样本数量:61807
下载总大小:9212508 字节
数据集总占用大小:47366138 字节
- 配置名称:查询集(queries)
特征:
- 字段名:ID(id),数据类型:字符串(string)
- 字段名:文本(text),为列表类型,包含子字段:
- 字段名:内容(content),数据类型:字符串(string)
- 字段名:角色(role),数据类型:字符串(string)
- 字段名:人设(persona),数据类型:字符串(string)
- 字段名:主题(topic),数据类型:字符串(string)
数据集划分:
- 划分名称:测试集(test),字节数:8629046,样本数量:8782
- 划分名称:训练集(train),字节数:166124182,样本数量:166787
- 划分名称:验证集(valid),字节数:8688717,样本数量:8806
下载总大小:13631577 字节
数据集总占用大小:183441945 字节
数据集配置:
- 配置名称:语料库(corpus)
数据文件:
- 数据集划分:测试集(test),文件路径:corpus/test-*
- 数据集划分:训练集(train),文件路径:corpus/train-*
- 数据集划分:验证集(valid),文件路径:corpus/valid-*
- 配置名称:相关性评分(qrels)
数据文件:
- 数据集划分:测试集(test),文件路径:qrels/test-*
- 数据集划分:训练集(train),文件路径:qrels/train-*
- 数据集划分:验证集(valid),文件路径:qrels/valid-*
- 配置名称:查询集(queries)
数据文件:
- 数据集划分:测试集(test),文件路径:queries/test-*
- 数据集划分:训练集(train),文件路径:queries/train-*
- 数据集划分:验证集(valid),文件路径:queries/valid-*
提供机构:
DeepPavlov



