skyehigh/fineweb-10b-gpt2
收藏Hugging Face2025-02-21 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/skyehigh/fineweb-10b-gpt2
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于FineWeb数据集的sample-10BT版本,经过gpt2分词器处理并分割成100M个token的二进制碎片。每个样本前加有`<|endoftext|>`特殊标记。包含103个训练碎片和1个验证碎片。
This is the sample-10BT version of the FineWeb dataset, tokenized using the gpt2 tokenizer and split into 100M tokens binary shards. Each sample is prefixed with the `<|endoftext|>` special token. It includes 103 training shards and 1 validation shard.
提供机构:
skyehigh



