five

BEE-spoke-data/wikipedia-20230901.en-deduped

收藏
Hugging Face2023-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/wikipedia-20230901.en-deduped
下载链接
链接失效反馈
官方服务:
资源简介:
数据集名为wikipedia - 20230901.en - deduped,目的是在减少数据量的同时保持(大部分)质量。数据集包含两个配置:default和text-only。default配置包含id、url、title和text四个特征,而text-only配置仅包含text特征。数据集主要用于文本生成、填充掩码和特征提取任务,语言为英语,标签包括wiki、wikipedia和pretrain,大小类别为1M<n<10M,来源数据集为graelo/wikipedia。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

数据集配置

default

  • 数据文件路径:
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
  • 特征:
    • id: 字符串类型
    • url: 字符串类型
    • title: 字符串类型
    • text: 字符串类型
  • 分割信息:
    • 训练集: 15368746858.779654 字节, 5673373 个样本
    • 验证集: 404439922.64724064 字节, 149299 个样本
    • 测试集: 404442631.57310516 字节, 149300 个样本
  • 下载大小: 9703633440 字节
  • 数据集大小: 16177629413 字节

text-only

  • 数据文件路径:
    • 训练集: text-only/train-*
    • 验证集: text-only/validation-*
    • 测试集: text-only/test-*
  • 特征:
    • text: 字符串类型
  • 分割信息:
    • 训练集: 14834731398.280304 字节, 5673373 个样本
    • 验证集: 390386911.46022856 字节, 149299 个样本
    • 测试集: 390389526.2594667 字节, 149300 个样本
  • 下载大小: 9374463601 字节
  • 数据集大小: 15615507835.999998 字节

许可证

  • 许可证: cc-by-sa-3.0

任务类别

  • 任务类别:
    • 文本生成
    • 填充掩码
    • 特征提取

语言

  • 语言: 英语

标签

  • 标签:
    • wiki
    • wikipedia
    • pretrain

大小类别

  • 大小类别: 1M<n<10M

来源数据集

  • 来源数据集: graelo/wikipedia
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作