five

fhswf/TinyStoriesV2_cleaned

收藏
Hugging Face2024-05-23 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/fhswf/TinyStoriesV2_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由GPT-4生成的短篇故事,这些故事仅使用少量词汇。这是原始TinyStories数据集的清理版本,删除了包含拼写和语法错误以及不在标准英语词典中的单词的故事。每个故事以<|endoftext|>结尾。请注意,该版本的测试集与原始TinyStories数据集的测试/验证集不同。

该数据集包含由GPT-4生成的短篇故事,这些故事仅使用少量词汇。这是原始TinyStories数据集的清理版本,删除了包含拼写和语法错误以及不在标准英语词典中的单词的故事。每个故事以<|endoftext|>结尾。请注意,该版本的测试集与原始TinyStories数据集的测试/验证集不同。
提供机构:
fhswf
原始信息汇总

数据集概述

基本信息

  • 数据集名称: TinyStoriesV2_cleaned
  • 语言: 英语 (en)
  • 任务类别: 文本生成 (text-generation)
  • 许可证: CDLA-Sharing-1.0

数据集内容

  • 内容描述: 包含由GPT-4生成的合成短故事,使用有限词汇。
  • 数据清理: 删除了拼写和语法错误的故事,以及不包含在标准英语词典中的词汇。
  • 故事特点: 包含独特的主角名字和偶尔的数字,每个故事以"<|endoftext|>"结束。

数据集结构

  • 配置:
    • 配置名称: train
    • 样本单位: 段落 (paragraph)
    • 数据文件:
      • 训练集: data/train/*.txt
      • 测试集: data/test/*.txt

版本信息

  • 原始数据集: 参考roneneldan/TinyStories
  • 当前版本差异: 测试集与原始数据集的测试/验证集不同。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作