five

52AI/TinyStoriesZh

收藏
Hugging Face2023-08-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/52AI/TinyStoriesZh
下载链接
链接失效反馈
官方服务:
资源简介:
TinyStories数据集用于探索小型语言模型(LM)的能力边界,特别是研究多小的语言模型仍然能够流畅地讲述故事。数据集中的故事是由GPT3.5和GPT4生成的,并且故事难度被限制在3~4岁儿童能够理解的水平。此外,数据集中的中文故事是通过翻译器从英文故事翻译而来的。

The TinyStories dataset is designed to explore the capability boundaries of small language models (LMs), particularly for researching the minimum scale of a language model that can still generate fluent storytelling. The stories in the dataset were generated by GPT-3.5 and GPT-4, with their difficulty level restricted to be comprehensible for children aged 3 to 4. Additionally, the Chinese stories within this dataset were translated from the English stories using machine translation tools.
提供机构:
52AI
原始信息汇总

数据集概述

数据来源

  • 数据集 TinyStories 是由研究者使用 GPT3.5GPT4 生成的关于小故事的场景数据。
  • 故事难度限制在 3~4岁小朋友能理解

数据处理

  • 这份中文数据是通过 翻译器 将英文故事数据翻译而成。

示例内容

  • 英文故事示例:

    Lily and Ben are friends. They like to play in the park. One day, they see a big tree with a swing. Lily wants to try the swing. She runs to the tree and climbs on the swing. "Push me, Ben!" she says. Ben pushes her gently. Lily feels happy. She swings higher and higher. She laughs and shouts. Ben watches Lily. He thinks she is cute. He wants to swing too. He waits for Lily to stop. But Lily does not stop. She swings faster and faster. She is having too much fun. "Can I swing too, Lily?" Ben asks. Lily does not hear him. She is too busy swinging. Ben feels sad. He walks away. Lily swings so high that she loses her grip. She falls off the swing. She lands on the ground. She hurts her foot. She cries. "Ow, ow, ow!" she says. She looks for Ben. She wants him to help her. But Ben is not there. He is gone. Lily feels sorry. She wishes she had shared the swing with Ben. She wishes he was there to hug her. She limps to the tree. She sees something hanging from a branch. It is Bens hat. He left it for her. Lily smiles. She thinks Ben is nice. She puts on his hat. She hopes he will come back. She wants to say sorry. She wants to be friends again.

  • 中文翻译示例:

    莉莉和本是朋友。他们喜欢在公园里玩。有一天,他们看到一棵有秋千的大树。莉莉想尝试秋千。她跑到树旁,爬上秋千。 “推我吧,本!”她说。本轻轻地推了她一下。莉莉感觉很幸福。她荡得越来越高。她又笑又叫。 本看着莉莉。他觉得她很可爱。他也想摇摆。他等着莉莉停下来。但莉莉并没有停下来。她摆动得越来越快。她玩得太开心了。 “我也可以荡秋千吗,莉莉?”本问。莉莉没有听见他的话。她正忙着荡秋千。本感到难过。他走开了。 莉莉荡得太高,以至于她失去了抓力。她从秋千上摔下来。她降落在地上。她的脚受伤了。她哭了。 “呜呜呜!”她说。她寻找本。她想要他帮助她。但本不在那儿。他已经去了。 莉莉感到抱歉。她希望自己能和本一起荡秋千。她希望他能在那里拥抱她。她一瘸一拐地走向树。她看到树枝上挂着什么东西。这是本的帽子。他留给她了。 莉莉微笑着。她认为本很好。她戴上他的帽子。她希望他能回来。她想说对不起。她想再次成为朋友。

搜集汇总
数据集介绍
main_image_url
构建方式
针对小语言模型的研究领域,52AI/TinyStoriesZh数据集的构建采取了使用GPT3.5和GPT4生成小故事的策略,其内容难度被严格控制,以适应3至4岁儿童的认知水平。研究者们首先在英文环境下生成故事,随后利用翻译器将英文故事转换为中文,从而构建起这份独特的中文小故事数据集。
特点
该数据集的特点在于其独特的应用背景,专为研究小语言模型的能力边界而设计。它包含了适合幼儿理解的故事内容,不仅丰富了中文自然语言处理的数据资源,而且为小语言模型的性能评估提供了标准化样本。此外,通过翻译过程,该数据集还间接展现了跨语言内容转换的准确性和可靠性。
使用方法
使用52AI/TinyStoriesZh数据集时,研究者可将其作为训练或测试小语言模型的基准数据。数据集的许可协议为MIT,保证了其使用的灵活性和开放性。用户在获取数据后,应遵循相关法律法规和道德标准,合理利用数据集进行科学研究,促进小语言模型领域的发展。
背景与挑战
背景概述
随着语言模型的研究不断深入,如何在保持模型体积小巧的同时,仍能维持其语言生成的流畅性与合理性,成为当前研究的热点问题。在此背景下,52AI/TinyStoriesZh数据集应运而生,该数据集由研究者利用GPT3.5与GPT4生成,旨在探索小规模语言模型在故事生成方面的极限。该数据集创建于近年来,是相关领域内对小型语言模型生成能力研究的一个重要成果,对于理解小型语言模型的性能界限有着重要意义。数据集的故事内容被设计为3至4岁儿童所能理解的程度,并通过翻译器转换为中文,为中文自然语言处理领域的研究提供了宝贵的资源。
当前挑战
52AI/TinyStoriesZh数据集面临的挑战主要涉及两个方面:一是确保小型语言模型在生成故事时的连贯性与合理性,这要求模型在有限的参数量下仍能捕捉到语言的复杂结构;二是数据集构建过程中,如何保持英文到中文翻译的准确性和语境一致性,这对于跨语言研究的有效性至关重要。此外,如何在保证数据质量的同时,处理和整合大量数据,也是构建此类数据集时必须面对的难题。
常用场景
经典使用场景
在自然语言处理领域,尤其是小规模语言模型的性能评估中,52AI/TinyStoriesZh数据集扮演了重要角色。该数据集由简短的小故事组成,其经典的运用场景在于评估小型语言模型生成故事的能力,以及能否在有限的参数量下,创造出连贯、有趣且适合儿童理解的故事内容。
解决学术问题
该数据集解决了学术界在研究小型语言模型时所面临的难题,即可理解性与生成质量之间的平衡。通过使用52AI/TinyStoriesZh,研究者能够探究并确定语言模型在参数规模大幅度缩减时,仍然保持的故事叙述能力,这对于理解语言模型的规模效应和性能边界具有显著意义。
衍生相关工作
基于52AI/TinyStoriesZh数据集的研究成果,已衍生出一系列相关工作,包括对小型语言模型在不同领域应用的探索,以及利用该数据集对模型进行微调以适应特定教育场景的研究,进一步扩展了该数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作