fhswf/TinyStoriesV2_cleaned
收藏Hugging Face2024-05-23 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/fhswf/TinyStoriesV2_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由GPT-4生成的短篇故事,这些故事仅使用少量词汇。这是原始TinyStories数据集的清理版本,删除了包含拼写和语法错误以及不在标准英语词典中的单词的故事。每个故事以<|endoftext|>结尾。请注意,该版本的测试集与原始TinyStories数据集的测试/验证集不同。
该数据集包含由GPT-4生成的短篇故事,这些故事仅使用少量词汇。这是原始TinyStories数据集的清理版本,删除了包含拼写和语法错误以及不在标准英语词典中的单词的故事。每个故事以<|endoftext|>结尾。请注意,该版本的测试集与原始TinyStories数据集的测试/验证集不同。
提供机构:
fhswf
原始信息汇总
数据集概述
基本信息
- 数据集名称: TinyStoriesV2_cleaned
- 语言: 英语 (en)
- 任务类别: 文本生成 (text-generation)
- 许可证: CDLA-Sharing-1.0
数据集内容
- 内容描述: 包含由GPT-4生成的合成短故事,使用有限词汇。
- 数据清理: 删除了拼写和语法错误的故事,以及不包含在标准英语词典中的词汇。
- 故事特点: 包含独特的主角名字和偶尔的数字,每个故事以"<|endoftext|>"结束。
数据集结构
- 配置:
- 配置名称: train
- 样本单位: 段落 (paragraph)
- 数据文件:
- 训练集: data/train/*.txt
- 测试集: data/test/*.txt
版本信息
- 原始数据集: 参考roneneldan/TinyStories
- 当前版本差异: 测试集与原始数据集的测试/验证集不同。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



