BEE-spoke-data/UltraTextbooks-2.1-fw_mix

Name: BEE-spoke-data/UltraTextbooks-2.1-fw_mix
Creator: BEE-spoke-data
Published: 2024-05-24 03:58:21
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BEE-spoke-data/UltraTextbooks-2.1-fw_mix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含过滤后的ultratextbooks的文本生成、特征提取和填充掩码任务的数据集，至少包含50个单词，并从fineweb中随机抽取了500k行数据以促进持续预训练。数据集包含两个配置：deduped和default，每个配置都有训练集的分割，包含文本和来源两个特征。

提供机构：

BEE-spoke-data

原始信息汇总

数据集概述

配置名称: deduped
- 特征:
  - text: 字符串类型
  - source: 字符串类型
- 分割:
  - 训练集
    - 字节数: 15649788282
    - 示例数: 3564946
- 下载大小: 8021244923
- 数据集大小: 15649788282
配置名称: default
- 特征:
  - text: 字符串类型
  - source: 字符串类型
- 分割:
  - 训练集
    - 字节数: 16793494823.584742
    - 示例数: 3701646
- 下载大小: 8622277670
- 数据集大小: 16793494823.584742

总令牌数: 3677.41 M tokens
令牌统计:
- 总数: 3.701646e+06
- 平均: 9.934539e+02
- 标准差: 1.726200e+03
- 最小: 5.400000e+01
- 25%分位数: 2.580000e+02
- 中位数: 5.540000e+02
- 75%分位数: 1.363000e+03
- 最大: 4.277600e+05

5,000+

优质数据集

54 个

任务类型

进入经典数据集