xhluca/mini_wiki
收藏Hugging Face2024-05-29 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/xhluca/mini_wiki
下载链接
链接失效反馈官方服务:
资源简介:
`mini_wiki`数据集是从`wikimedia/wikipedia`数据集中采样的版本,基于`20231101.en`版本生成。该数据集提供了100、1k、5k、10k、50k、100k等不同规模的样本。每个样本包含`id`、`url`、`title`和`text`四个字段。数据集分为`full`(完整文章)和`partial`(仅包含每篇文章的前200字)两种分割,适用于不同的应用场景,如检索任务。
提供机构:
xhluca
原始信息汇总
mini_wiki 数据集概述
数据集信息
配置名称:100
- 特征:
id: 字符串url: 字符串title: 字符串text: 字符串
- 分割:
partial:- 字节数:98031
- 样本数:100
full:- 字节数:315241.0851032817
- 样本数:100
- 下载大小:839250
- 数据集大小:413272.0851032817
配置名称:100k
- 特征:
id: 字符串url: 字符串title: 字符串text: 字符串
- 分割:
partial:- 字节数:102100446
- 样本数:100000
full:- 字节数:315241085.10328174
- 样本数:100000
- 下载大小:830226372
- 数据集大小:417341531.10328174
配置名称:10k
- 特征:
id: 字符串url: 字符串title: 字符串text: 字符串
- 分割:
partial:- 字节数:10221068
- 样本数:10000
full:- 字节数:31524108.51032817
- 样本数:10000
- 下载大小:83501027
- 数据集大小:41745176.51032817
配置名称:1k
- 特征:
id: 字符串url: 字符串title: 字符串text: 字符串
- 分割:
partial:- 字节数:1007863
- 样本数:1000
full:- 字节数:3152410.8510328173
- 样本数:1000
- 下载大小:8616768
- 数据集大小:4160273.8510328177
配置名称:50k
- 特征:
id: 字符串url: 字符串title: 字符串text: 字符串
- 分割:
partial:- 字节数:51054035
- 样本数:50000
full:- 字节数:157620542.55164087
- 样本数:50000
- 下载大小:413753517
- 数据集大小:208674577.55164087
配置名称:5k
- 特征:
id: 字符串url: 字符串title: 字符串text: 字符串
- 分割:
partial:- 字节数:5082253
- 样本数:5000
full:- 字节数:15762054.255164085
- 样本数:5000
- 下载大小:41631926
- 数据集大小:20844307.255164087
数据文件配置
配置名称:100
- 数据文件:
full:100/full-*partial:100/partial-*
配置名称:100k
- 数据文件:
full:100k/full-*partial:100k/partial-*
配置名称:10k
- 数据文件:
full:10k/full-*partial:10k/partial-*
配置名称:1k
- 数据文件:
full:1k/full-*partial:1k/partial-*
配置名称:50k
- 数据文件:
full:50k/full-*partial:50k/partial-*
配置名称:5k
- 数据文件:
full:5k/full-*partial:5k/partial-*



