baslak/fineweb10B-llama3
收藏Hugging Face2024-11-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/baslak/fineweb10B-llama3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含经过预处理并使用LLaMA-3.2-1B分词器进行分词的FineWeb数据集。每个.bin文件包含一个256个int32值的头部、uint32值的标记数据,以及文件格式版本(2)。数据集结构包括训练分片(fineweb_train_*.bin)和验证分片(fineweb_val_*.bin)。
This dataset contains the FineWeb dataset preprocessed and tokenized using the LLaMA-3.2-1B tokenizer. Each .bin file contains a header of 256 int32 values, token data as uint32 values, and file format version: 2. Dataset structure includes training shards (fineweb_train_*.bin) and validation shard (fineweb_val_*.bin).
提供机构:
baslak



