five

BEE-spoke-data/fineweb-1M_longish

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/fineweb-1M_longish
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 5485226321 num_examples: 1000000 download_size: 3353329992 dataset_size: 5485226321 configs: - config_name: default data_files: - split: train path: data/train-* license: odc-by task_categories: - text-generation - fill-mask - feature-extraction language: - en size_categories: - 100K<n<1M --- # fineweb "longish" 1M 1m samples w/ random seed w.r.t. previous samples. - min 512 GPT-4 tiktoken tokens - max 8192 GPT-4 tiktoken tokens BEE-spoke-data/claude-tokenizer token count: ``` token_count count 1000000.000000 mean 1218.231641 std 935.733312 min 139.000000 25% 683.000000 50% 905.000000 75% 1350.000000 max 9550.000000 ``` - Total count: 1218.23 M tokens
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

基本信息

  • 名称: fineweb "longish" 1M
  • 特征:
    • text: 数据类型为字符串
  • 语言: 英语(en)
  • 任务类别:
    • 文本生成
    • 填充掩码
    • 特征提取
  • 大小类别: 10万<n<100万

数据集大小

  • 下载大小: 3353329992 字节
  • 数据集大小: 5485226321 字节
  • 训练集大小:
    • 示例数量: 1000000
    • 字节数: 5485226321

许可证

  • 许可证: odc-by

数据集统计

  • 总令牌数: 1218.23 M tokens
  • 令牌统计:
    • 总数: 1000000
    • 平均数: 1218.231641
    • 标准差: 935.733312
    • 最小值: 139
    • 25%分位数: 683
    • 中位数: 905
    • 75%分位数: 1350
    • 最大值: 9550
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作