five

baslak/fineweb10B-llama3

收藏
Hugging Face2024-11-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/baslak/fineweb10B-llama3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含经过预处理并使用LLaMA-3.2-1B分词器进行分词的FineWeb数据集。每个.bin文件包含一个256个int32值的头部、uint32值的标记数据,以及文件格式版本(2)。数据集结构包括训练分片(fineweb_train_*.bin)和验证分片(fineweb_val_*.bin)。

This dataset contains the FineWeb dataset preprocessed and tokenized using the LLaMA-3.2-1B tokenizer. Each .bin file contains a header of 256 int32 values, token data as uint32 values, and file format version: 2. Dataset structure includes training shards (fineweb_train_*.bin) and validation shard (fineweb_val_*.bin).
提供机构:
baslak
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作