delphi-suite/v0-tinystories-v2-clean-tokenized
收藏Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/delphi-suite/v0-tinystories-v2-clean-tokenized
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cdla-sharing-1.0
dataset_info:
features:
- name: tokens
sequence: int64
splits:
- name: train
num_bytes: 4467790964
num_examples: 1087583
- name: validation
num_bytes: 45114056
num_examples: 10982
download_size: 794050292
dataset_size: 4512905020
---
v0 refers to our tokenization process, v2 refers to stories generated by GPT4 only
提供机构:
delphi-suite
原始信息汇总
数据集概述
许可证
- 许可证类型:cdla-sharing-1.0
数据集信息
-
特征
- 名称:tokens
- 序列类型:int64
-
数据分割
- 训练集
- 名称:train
- 字节数:4467790964
- 样本数:1087583
- 验证集
- 名称:validation
- 字节数:45114056
- 样本数:10982
- 训练集
-
数据大小
- 下载大小:794050292
- 数据集大小:4512905020
版本说明
- v0:指代我们的分词处理过程
- v2:指代仅由GPT4生成的故事



