five

xhluca/mini_wiki

收藏
Hugging Face2024-05-29 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/xhluca/mini_wiki
下载链接
链接失效反馈
官方服务:
资源简介:
`mini_wiki`数据集是从`wikimedia/wikipedia`数据集中采样的版本,基于`20231101.en`版本生成。该数据集提供了100、1k、5k、10k、50k、100k等不同规模的样本。每个样本包含`id`、`url`、`title`和`text`四个字段。数据集分为`full`(完整文章)和`partial`(仅包含每篇文章的前200字)两种分割,适用于不同的应用场景,如检索任务。
提供机构:
xhluca
原始信息汇总

mini_wiki 数据集概述

数据集信息

配置名称:100

  • 特征
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割
    • partial
      • 字节数:98031
      • 样本数:100
    • full
      • 字节数:315241.0851032817
      • 样本数:100
  • 下载大小:839250
  • 数据集大小:413272.0851032817

配置名称:100k

  • 特征
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割
    • partial
      • 字节数:102100446
      • 样本数:100000
    • full
      • 字节数:315241085.10328174
      • 样本数:100000
  • 下载大小:830226372
  • 数据集大小:417341531.10328174

配置名称:10k

  • 特征
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割
    • partial
      • 字节数:10221068
      • 样本数:10000
    • full
      • 字节数:31524108.51032817
      • 样本数:10000
  • 下载大小:83501027
  • 数据集大小:41745176.51032817

配置名称:1k

  • 特征
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割
    • partial
      • 字节数:1007863
      • 样本数:1000
    • full
      • 字节数:3152410.8510328173
      • 样本数:1000
  • 下载大小:8616768
  • 数据集大小:4160273.8510328177

配置名称:50k

  • 特征
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割
    • partial
      • 字节数:51054035
      • 样本数:50000
    • full
      • 字节数:157620542.55164087
      • 样本数:50000
  • 下载大小:413753517
  • 数据集大小:208674577.55164087

配置名称:5k

  • 特征
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割
    • partial
      • 字节数:5082253
      • 样本数:5000
    • full
      • 字节数:15762054.255164085
      • 样本数:5000
  • 下载大小:41631926
  • 数据集大小:20844307.255164087

数据文件配置

配置名称:100

  • 数据文件
    • full:100/full-*
    • partial:100/partial-*

配置名称:100k

  • 数据文件
    • full:100k/full-*
    • partial:100k/partial-*

配置名称:10k

  • 数据文件
    • full:10k/full-*
    • partial:10k/partial-*

配置名称:1k

  • 数据文件
    • full:1k/full-*
    • partial:1k/partial-*

配置名称:50k

  • 数据文件
    • full:50k/full-*
    • partial:50k/partial-*

配置名称:5k

  • 数据文件
    • full:5k/full-*
    • partial:5k/partial-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作