five

marcoshernanz/llm-lab-fineweb-edu-sample10bt-bpe-16384

收藏
Hugging Face2026-03-29 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/marcoshernanz/llm-lab-fineweb-edu-sample10bt-bpe-16384
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-generation language: - en pretty_name: llm-lab FineWeb-Edu sample-10BT BPE 16384 shards size_categories: - 100M<n<1B --- # llm-lab FineWeb-Edu sample-10BT BPE 16384 shards Public tokenizer + token shard artifacts for llm-lab phase 2 milestone 21. Contents: - `metadata.json` - `fineweb_edu_sample10bt_bpe_16384.json` - `train_*.npy` - `validation_*.npy` These files are intended to be downloaded into a local directory and then passed to the milestone-021 experiment script.

--- 许可证:MIT许可证 任务类别: - 文本生成 语言: - 英语 展示名称:llm-lab FineWeb-Edu sample-10BT 字节对编码(Byte Pair Encoding,BPE)16384 分片数据集 数据规模类别: - 1亿<数据量<10亿 --- # llm-lab FineWeb-Edu sample-10BT 字节对编码(BPE)16384 分片数据集 本数据集为llm-lab第二阶段第21里程碑配套的公开分词器与分词分片工件。 包含文件: - `metadata.json` - `fineweb_edu_sample10bt_bpe_16384.json` - `train_*.npy` - `validation_*.npy` 上述文件需下载至本地目录后,传入第21里程碑对应的实验脚本中使用。
提供机构:
marcoshernanz
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作