52AI/TinyStoriesZh|语言模型数据集|儿童故事数据集

hugging_face2023-08-19 更新2024-03-04 收录

语言模型

儿童故事

下载链接：

https://hf-mirror.com/datasets/52AI/TinyStoriesZh

下载链接

链接失效反馈

资源简介：

TinyStories数据集用于探索小型语言模型（LM）的能力边界，特别是研究多小的语言模型仍然能够流畅地讲述故事。数据集中的故事是由GPT3.5和GPT4生成的，并且故事难度被限制在3~4岁儿童能够理解的水平。此外，数据集中的中文故事是通过翻译器从英文故事翻译而来的。

提供机构：

52AI

原始信息汇总

数据集概述

数据来源

数据集 TinyStories 是由研究者使用 GPT3.5 和 GPT4 生成的关于小故事的场景数据。
故事难度限制在 3~4岁小朋友能理解。

数据处理

这份中文数据是通过 翻译器 将英文故事数据翻译而成。

示例内容

英文故事示例：

Lily and Ben are friends. They like to play in the park. One day, they see a big tree with a swing. Lily wants to try the swing. She runs to the tree and climbs on the swing. "Push me, Ben!" she says. Ben pushes her gently. Lily feels happy. She swings higher and higher. She laughs and shouts. Ben watches Lily. He thinks she is cute. He wants to swing too. He waits for Lily to stop. But Lily does not stop. She swings faster and faster. She is having too much fun. "Can I swing too, Lily?" Ben asks. Lily does not hear him. She is too busy swinging. Ben feels sad. He walks away. Lily swings so high that she loses her grip. She falls off the swing. She lands on the ground. She hurts her foot. She cries. "Ow, ow, ow!" she says. She looks for Ben. She wants him to help her. But Ben is not there. He is gone. Lily feels sorry. She wishes she had shared the swing with Ben. She wishes he was there to hug her. She limps to the tree. She sees something hanging from a branch. It is Bens hat. He left it for her. Lily smiles. She thinks Ben is nice. She puts on his hat. She hopes he will come back. She wants to say sorry. She wants to be friends again.
中文翻译示例：

莉莉和本是朋友。他们喜欢在公园里玩。有一天，他们看到一棵有秋千的大树。莉莉想尝试秋千。她跑到树旁，爬上秋千。 “推我吧，本！”她说。本轻轻地推了她一下。莉莉感觉很幸福。她荡得越来越高。她又笑又叫。本看着莉莉。他觉得她很可爱。他也想摇摆。他等着莉莉停下来。但莉莉并没有停下来。她摆动得越来越快。她玩得太开心了。 “我也可以荡秋千吗，莉莉？”本问。莉莉没有听见他的话。她正忙着荡秋千。本感到难过。他走开了。莉莉荡得太高，以至于她失去了抓力。她从秋千上摔下来。她降落在地上。她的脚受伤了。她哭了。 “呜呜呜！”她说。她寻找本。她想要他帮助她。但本不在那儿。他已经去了。莉莉感到抱歉。她希望自己能和本一起荡秋千。她希望他能在那里拥抱她。她一瘸一拐地走向树。她看到树枝上挂着什么东西。这是本的帽子。他留给她了。莉莉微笑着。她认为本很好。她戴上他的帽子。她希望他能回来。她想说对不起。她想再次成为朋友。

AI搜集汇总

数据集介绍

构建方式

针对小语言模型的研究领域，52AI/TinyStoriesZh数据集的构建采取了使用GPT3.5和GPT4生成小故事的策略，其内容难度被严格控制，以适应3至4岁儿童的认知水平。研究者们首先在英文环境下生成故事，随后利用翻译器将英文故事转换为中文，从而构建起这份独特的中文小故事数据集。

特点

该数据集的特点在于其独特的应用背景，专为研究小语言模型的能力边界而设计。它包含了适合幼儿理解的故事内容，不仅丰富了中文自然语言处理的数据资源，而且为小语言模型的性能评估提供了标准化样本。此外，通过翻译过程，该数据集还间接展现了跨语言内容转换的准确性和可靠性。

使用方法

使用52AI/TinyStoriesZh数据集时，研究者可将其作为训练或测试小语言模型的基准数据。数据集的许可协议为MIT，保证了其使用的灵活性和开放性。用户在获取数据后，应遵循相关法律法规和道德标准，合理利用数据集进行科学研究，促进小语言模型领域的发展。

背景与挑战

背景概述

随着语言模型的研究不断深入，如何在保持模型体积小巧的同时，仍能维持其语言生成的流畅性与合理性，成为当前研究的热点问题。在此背景下，52AI/TinyStoriesZh数据集应运而生，该数据集由研究者利用GPT3.5与GPT4生成，旨在探索小规模语言模型在故事生成方面的极限。该数据集创建于近年来，是相关领域内对小型语言模型生成能力研究的一个重要成果，对于理解小型语言模型的性能界限有着重要意义。数据集的故事内容被设计为3至4岁儿童所能理解的程度，并通过翻译器转换为中文，为中文自然语言处理领域的研究提供了宝贵的资源。

当前挑战

52AI/TinyStoriesZh数据集面临的挑战主要涉及两个方面：一是确保小型语言模型在生成故事时的连贯性与合理性，这要求模型在有限的参数量下仍能捕捉到语言的复杂结构；二是数据集构建过程中，如何保持英文到中文翻译的准确性和语境一致性，这对于跨语言研究的有效性至关重要。此外，如何在保证数据质量的同时，处理和整合大量数据，也是构建此类数据集时必须面对的难题。

常用场景

经典使用场景

在自然语言处理领域，尤其是小规模语言模型的性能评估中，52AI/TinyStoriesZh数据集扮演了重要角色。该数据集由简短的小故事组成，其经典的运用场景在于评估小型语言模型生成故事的能力，以及能否在有限的参数量下，创造出连贯、有趣且适合儿童理解的故事内容。

解决学术问题

该数据集解决了学术界在研究小型语言模型时所面临的难题，即可理解性与生成质量之间的平衡。通过使用52AI/TinyStoriesZh，研究者能够探究并确定语言模型在参数规模大幅度缩减时，仍然保持的故事叙述能力，这对于理解语言模型的规模效应和性能边界具有显著意义。

衍生相关工作

基于52AI/TinyStoriesZh数据集的研究成果，已衍生出一系列相关工作，包括对小型语言模型在不同领域应用的探索，以及利用该数据集对模型进行微调以适应特定教育场景的研究，进一步扩展了该数据集的应用范围和影响力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据，并与movielens ml-latest数据集通过共同的imdb字段进行交集处理，最终得到15752条共同数据。数据存储格式为JSON，支持导入到MongoDB或其他数据库使用。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Adult Census Income dataset

该数据集由UCI机器学习库提供，包含个人的 demographic 信息及其收入水平。

github 收录