BEE-spoke-data/UltraTextbooks-2.1-fw_mix
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/UltraTextbooks-2.1-fw_mix
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含过滤后的ultratextbooks的文本生成、特征提取和填充掩码任务的数据集,至少包含50个单词,并从fineweb中随机抽取了500k行数据以促进持续预训练。数据集包含两个配置:deduped和default,每个配置都有训练集的分割,包含文本和来源两个特征。
该数据集是一个包含过滤后的ultratextbooks的文本生成、特征提取和填充掩码任务的数据集,至少包含50个单词,并从fineweb中随机抽取了500k行数据以促进持续预训练。数据集包含两个配置:deduped和default,每个配置都有训练集的分割,包含文本和来源两个特征。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: ODC-BY
- 大小分类: 1M<n<10M
- 任务分类:
- 文本生成
- 特征提取
- 填充掩码
数据集配置
-
配置名称: deduped
- 特征:
- text: 字符串类型
- source: 字符串类型
- 分割:
- 训练集
- 字节数: 15649788282
- 示例数: 3564946
- 训练集
- 下载大小: 8021244923
- 数据集大小: 15649788282
- 特征:
-
配置名称: default
- 特征:
- text: 字符串类型
- source: 字符串类型
- 分割:
- 训练集
- 字节数: 16793494823.584742
- 示例数: 3701646
- 训练集
- 下载大小: 8622277670
- 数据集大小: 16793494823.584742
- 特征:
数据文件
-
配置名称: deduped
- 分割: 训练集
- 路径: deduped/train-*
- 分割: 训练集
-
配置名称: default
- 分割: 训练集
- 路径: data/train-*
- 分割: 训练集
统计信息
- 总令牌数: 3677.41 M tokens
- 令牌统计:
- 总数: 3.701646e+06
- 平均: 9.934539e+02
- 标准差: 1.726200e+03
- 最小: 5.400000e+01
- 25%分位数: 2.580000e+02
- 中位数: 5.540000e+02
- 75%分位数: 1.363000e+03
- 最大: 4.277600e+05



