five

enio/TinyStories

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/enio/TinyStories
下载链接
链接失效反馈
官方服务:
资源简介:
Pretokenized TinyStories数据集是基于roneneldan/TinyStories的预分词版本,提供了不同token数量的数据集,包括105、210、361、4k和32K Tokens。数据集包含多种文件类型,如vocab、model、bin和tar.gz文件,旨在加速在karpathy/llama2.c和EN10/BabyLlama上的训练过程。

Pretokenized TinyStories数据集是基于roneneldan/TinyStories的预分词版本,提供了不同token数量的数据集,包括105、210、361、4k和32K Tokens。数据集包含多种文件类型,如vocab、model、bin和tar.gz文件,旨在加速在karpathy/llama2.c和EN10/BabyLlama上的训练过程。
提供机构:
enio
原始信息汇总

Pretokenized TinyStories

数据集来源

数据集版本

  • 105 Tokensbyte_fallback=False
  • 210 Tokensbyte_fallback=False
  • 361 Tokens
  • 4k Tokens
  • 32K Tokens

包含文件

  • tok*.vocab
  • tok*.model
  • tok*.bin
  • tok*.tar.gz
    • data{00..49}.bin

预处理目的

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作