five

skyehigh/fineweb-10b-gpt2

收藏
Hugging Face2025-02-21 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/skyehigh/fineweb-10b-gpt2
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于FineWeb数据集的sample-10BT版本,经过gpt2分词器处理并分割成100M个token的二进制碎片。每个样本前加有`<|endoftext|>`特殊标记。包含103个训练碎片和1个验证碎片。

This is the sample-10BT version of the FineWeb dataset, tokenized using the gpt2 tokenizer and split into 100M tokens binary shards. Each sample is prefixed with the `<|endoftext|>` special token. It includes 103 training shards and 1 validation shard.
提供机构:
skyehigh
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作