karpathy/fineweb-edu-100B-gpt2-token-shards
收藏Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/karpathy/fineweb-edu-100B-gpt2-token-shards
下载链接
链接失效反馈官方服务:
资源简介:
FineWeb Edu 100B数据集使用GPT-2分词器进行处理,处理代码来源于llm.c仓库。
The FineWeb Edu 100B dataset is tokenized with GPT-2 tokenizer using the code in the llm.c repo. The dataset is licensed under odc-by.
提供机构:
karpathy
原始信息汇总
FineWeb Edu 100B 数据集
概述
- 数据集名称: FineWeb Edu 100B
- 数据集大小: 100B
- 数据处理: 使用GPT-2分词器进行分词
- 处理代码: 基于llm.c仓库中的代码
- 许可证: Open Data Commons Attribution License (ODC-BY)



