five

BEE-spoke-data/UltraTextbooks-2.1-fw_mix

收藏
Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/UltraTextbooks-2.1-fw_mix
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含过滤后的ultratextbooks的文本生成、特征提取和填充掩码任务的数据集,至少包含50个单词,并从fineweb中随机抽取了500k行数据以促进持续预训练。数据集包含两个配置:deduped和default,每个配置都有训练集的分割,包含文本和来源两个特征。

该数据集是一个包含过滤后的ultratextbooks的文本生成、特征提取和填充掩码任务的数据集,至少包含50个单词,并从fineweb中随机抽取了500k行数据以促进持续预训练。数据集包含两个配置:deduped和default,每个配置都有训练集的分割,包含文本和来源两个特征。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: ODC-BY
  • 大小分类: 1M<n<10M
  • 任务分类:
    • 文本生成
    • 特征提取
    • 填充掩码

数据集配置

  • 配置名称: deduped

    • 特征:
      • text: 字符串类型
      • source: 字符串类型
    • 分割:
      • 训练集
        • 字节数: 15649788282
        • 示例数: 3564946
    • 下载大小: 8021244923
    • 数据集大小: 15649788282
  • 配置名称: default

    • 特征:
      • text: 字符串类型
      • source: 字符串类型
    • 分割:
      • 训练集
        • 字节数: 16793494823.584742
        • 示例数: 3701646
    • 下载大小: 8622277670
    • 数据集大小: 16793494823.584742

数据文件

  • 配置名称: deduped

    • 分割: 训练集
      • 路径: deduped/train-*
  • 配置名称: default

    • 分割: 训练集
      • 路径: data/train-*

统计信息

  • 总令牌数: 3677.41 M tokens
  • 令牌统计:
    • 总数: 3.701646e+06
    • 平均: 9.934539e+02
    • 标准差: 1.726200e+03
    • 最小: 5.400000e+01
    • 25%分位数: 2.580000e+02
    • 中位数: 5.540000e+02
    • 75%分位数: 1.363000e+03
    • 最大: 4.277600e+05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作