BEE-spoke-data/wikipedia-20230901.en-deduped
收藏Hugging Face2023-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/wikipedia-20230901.en-deduped
下载链接
链接失效反馈官方服务:
资源简介:
数据集名为wikipedia - 20230901.en - deduped,目的是在减少数据量的同时保持(大部分)质量。数据集包含两个配置:default和text-only。default配置包含id、url、title和text四个特征,而text-only配置仅包含text特征。数据集主要用于文本生成、填充掩码和特征提取任务,语言为英语,标签包括wiki、wikipedia和pretrain,大小类别为1M<n<10M,来源数据集为graelo/wikipedia。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
数据集配置
default
- 数据文件路径:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 特征:
id: 字符串类型url: 字符串类型title: 字符串类型text: 字符串类型
- 分割信息:
- 训练集: 15368746858.779654 字节, 5673373 个样本
- 验证集: 404439922.64724064 字节, 149299 个样本
- 测试集: 404442631.57310516 字节, 149300 个样本
- 下载大小: 9703633440 字节
- 数据集大小: 16177629413 字节
text-only
- 数据文件路径:
- 训练集:
text-only/train-* - 验证集:
text-only/validation-* - 测试集:
text-only/test-*
- 训练集:
- 特征:
text: 字符串类型
- 分割信息:
- 训练集: 14834731398.280304 字节, 5673373 个样本
- 验证集: 390386911.46022856 字节, 149299 个样本
- 测试集: 390389526.2594667 字节, 149300 个样本
- 下载大小: 9374463601 字节
- 数据集大小: 15615507835.999998 字节
许可证
- 许可证: cc-by-sa-3.0
任务类别
- 任务类别:
- 文本生成
- 填充掩码
- 特征提取
语言
- 语言: 英语
标签
- 标签:
- wiki
- wikipedia
- pretrain
大小类别
- 大小类别: 1M<n<10M
来源数据集
- 来源数据集: graelo/wikipedia



