marcoshernanz/llm-lab-fineweb-edu-sample10bt-bpe-16384
收藏Hugging Face2026-03-29 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/marcoshernanz/llm-lab-fineweb-edu-sample10bt-bpe-16384
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
language:
- en
pretty_name: llm-lab FineWeb-Edu sample-10BT BPE 16384 shards
size_categories:
- 100M<n<1B
---
# llm-lab FineWeb-Edu sample-10BT BPE 16384 shards
Public tokenizer + token shard artifacts for llm-lab phase 2 milestone 21.
Contents:
- `metadata.json`
- `fineweb_edu_sample10bt_bpe_16384.json`
- `train_*.npy`
- `validation_*.npy`
These files are intended to be downloaded into a local directory and then passed to the milestone-021 experiment script.
---
许可证:MIT许可证
任务类别:
- 文本生成
语言:
- 英语
展示名称:llm-lab FineWeb-Edu sample-10BT 字节对编码(Byte Pair Encoding,BPE)16384 分片数据集
数据规模类别:
- 1亿<数据量<10亿
---
# llm-lab FineWeb-Edu sample-10BT 字节对编码(BPE)16384 分片数据集
本数据集为llm-lab第二阶段第21里程碑配套的公开分词器与分词分片工件。
包含文件:
- `metadata.json`
- `fineweb_edu_sample10bt_bpe_16384.json`
- `train_*.npy`
- `validation_*.npy`
上述文件需下载至本地目录后,传入第21里程碑对应的实验脚本中使用。
提供机构:
marcoshernanz



