cyrilzhang/TinyStories2-ascii
收藏Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyrilzhang/TinyStories2-ascii
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cdla-sharing-1.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 2188147629.6032934
num_examples: 2708167
- name: validation
num_bytes: 22108524.398827404
num_examples: 27544
download_size: 1143073704
dataset_size: 2210256154.002121
---
# Dataset Card for "TinyStories2-ascii"
- `TinyStoriesV2-GPT4-{train,validation}.txt` from [roneneldan/TinyStories](https://huggingface.co/datasets/roneneldan/TinyStories)
- ad-hoc Unicode -> ASCII normalization
- remove empty/incomplete stories
提供机构:
cyrilzhang
原始信息汇总
数据集卡片 "TinyStories2-ascii"
许可证
- 许可证:cdla-sharing-1.0
配置
- 配置名称:default
- 数据文件:
- 分割:train
- 路径:data/train-*
- 分割:validation
- 路径:data/validation-*
- 分割:train
- 数据文件:
数据集信息
- 特征:
- 名称:text
- 数据类型:string
- 名称:text
- 分割:
- 名称:train
- 字节数:2188147629.6032934
- 样本数:2708167
- 名称:validation
- 字节数:22108524.398827404
- 样本数:27544
- 名称:train
- 下载大小:1143073704
- 数据集大小:2210256154.002121
数据处理
- 数据来源:
TinyStoriesV2-GPT4-{train,validation}.txt来自 roneneldan/TinyStories - 特殊处理:Unicode 转换为 ASCII 规范化
- 移除空或不完整的故事



