enio/TinyStories
收藏Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/enio/TinyStories
下载链接
链接失效反馈官方服务:
资源简介:
Pretokenized TinyStories数据集是基于roneneldan/TinyStories的预分词版本,提供了不同token数量的数据集,包括105、210、361、4k和32K Tokens。数据集包含多种文件类型,如vocab、model、bin和tar.gz文件,旨在加速在karpathy/llama2.c和EN10/BabyLlama上的训练过程。
Pretokenized TinyStories数据集是基于roneneldan/TinyStories的预分词版本,提供了不同token数量的数据集,包括105、210、361、4k和32K Tokens。数据集包含多种文件类型,如vocab、model、bin和tar.gz文件,旨在加速在karpathy/llama2.c和EN10/BabyLlama上的训练过程。
提供机构:
enio
原始信息汇总
Pretokenized TinyStories
数据集来源
数据集版本
- 105 Tokens
byte_fallback=False - 210 Tokens
byte_fallback=False - 361 Tokens
- 4k Tokens
- 32K Tokens
包含文件
- tok*.vocab
- tok*.model
- tok*.bin
- tok*.tar.gz
- data{00..49}.bin
预处理目的
- 加速在以下项目的训练:



