five

karpathy/fineweb-edu-100B-gpt2-token-shards

收藏
Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/karpathy/fineweb-edu-100B-gpt2-token-shards
下载链接
链接失效反馈
官方服务:
资源简介:
FineWeb Edu 100B数据集使用GPT-2分词器进行处理,处理代码来源于llm.c仓库。

The FineWeb Edu 100B dataset is tokenized with GPT-2 tokenizer using the code in the llm.c repo. The dataset is licensed under odc-by.
提供机构:
karpathy
原始信息汇总

FineWeb Edu 100B 数据集

概述

  • 数据集名称: FineWeb Edu 100B
  • 数据集大小: 100B
  • 数据处理: 使用GPT-2分词器进行分词
  • 处理代码: 基于llm.c仓库中的代码
  • 许可证: Open Data Commons Attribution License (ODC-BY)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作