TinyStories
收藏Opencsg2024-08-12 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/TinyStories
下载链接
链接失效反馈官方服务:
资源简介:
TinyStories是一个包含合成生成的短篇故事的数据集,这些故事仅使用少量词汇。数据集使用GPT-3.5和GPT-4生成,主要用于文本生成任务。数据集包含TinyStories-train.txt文件用于模型训练,tinystories-valid.txt文件用于验证损失。同时,TinyStories还提供包含元数据和提示词的tinystories_all_data.tar.gz压缩包,以及仅由GPT-4生成的新版本数据集TinyStoriesV2-GPT4-train.txt。此外,还包括用于评估模型的提示列表Evaluation_prompts.yaml。数据集遵循CDLA-Sharing-1.0授权许可。
TinyStories is a dataset composed of synthetically generated short stories utilizing only a limited vocabulary. Generated using GPT-3.5 and GPT-4, it is primarily intended for text generation tasks. The dataset provides the TinyStories-train.txt file for model training and the tinystories-valid.txt file for validation loss computation. Additionally, TinyStories offers the tinystories_all_data.tar.gz compressed archive containing metadata and prompts, along with an exclusively GPT-4 generated new dataset variant named TinyStoriesV2-GPT4-train.txt. It also includes the Evaluation_prompts.yaml prompt list for model evaluation. The dataset is licensed under CDLA-Sharing-1.0.
创建时间:
2024-07-19
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



