RobinChen2001/TinyStories-Zh-2M
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/RobinChen2001/TinyStories-Zh-2M
下载链接
链接失效反馈官方服务:
资源简介:
TinyStories数据集是一个专注于短篇故事续写的英文数据集,内容设计为三四岁儿童也能轻松理解的程度。该数据集通过使用不同的关键词来丰富故事的主题,并控制故事的走向和结局,旨在探索语言模型在文本连贯性上的表现。中文翻译版本的数据集由52AI/TinyStoriesZh提供,并已整理为与原始数据集相同的jsonl格式。
TinyStories数据集是一个专注于短篇故事续写的英文数据集,内容设计为三四岁儿童也能轻松理解的程度。该数据集通过使用不同的关键词来丰富故事的主题,并控制故事的走向和结局,旨在探索语言模型在文本连贯性上的表现。中文翻译版本的数据集由52AI/TinyStoriesZh提供,并已整理为与原始数据集相同的jsonl格式。
提供机构:
RobinChen2001
原始信息汇总
数据集概述
数据集信息
-
特征:
text: 数据类型为string。
-
数据分割:
train: 包含 1,994,314 个样本,总大小为 1,496,850,167 字节。
-
下载大小: 842,061,023 字节。
-
数据集大小: 1,496,850,167 字节。
配置
- 配置名称:
default- 数据文件:
train: 路径为data/train-*。
- 数据文件:
数据来源
- 原始数据: 来源于 roneneldan/TinyStories。
- 中文翻译数据: 来源于 52AI/TinyStoriesZh。
数据处理
- 将 52AI/TinyStoriesZh 的
TinyStories_all_data_zh_2M.tar.gz数据整理为与原始 roneneldan/TinyStories 相同的 jsonl 数据格式。



