five

BoltMonkey/stories_by_complexity

收藏
Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/BoltMonkey/stories_by_complexity
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含31156个为4至16岁儿童设计的短篇故事,这些故事是使用GPT4生成的合成数据。除了故事标题、摘要和正文外,还包括故事的类型、叙述方式、时态、主题的年龄适宜性以及文本复杂度指标。文本复杂度指标通过textstat库计算,包括Flesch-Kincaid、Gunning Fog Index、SMOG Index和Automated Readability Index。此外,还计算了阅读年龄适宜性指标。数据集旨在试验基于课程的大型语言模型训练计划,但也适用于任何故事生成的微调应用。数据集包含大约300个不同的角色描述和500个不同的事件,这些被随机选择以生成GPT4的提示。数据集许可为非商业用途,并鼓励用户以道德方式使用。
提供机构:
BoltMonkey
原始信息汇总

儿童故事数据集

概述

  • 数据集名称: Childrens Stories
  • 数据格式: JSON
  • 故事数量: 31156
  • 适用年龄: 4至16岁
  • 数据来源: 由GPT4生成,为合成数据集

内容

  • 故事元素:
    • 标题
    • 摘要
    • 故事文本
    • 类型
    • 叙述方式
    • 时态
    • 主题的年龄适宜性(由GPT4确定)
    • 文本复杂度指标

文本复杂度指标

  • 计算方法: 使用textstat库计算
  • 指标类型:
    • Flesch-Kincaid
    • Gunning Fog Index
    • SMOG Index
    • Automated Readability Index

阅读年龄适宜性

  • 计算方法: 将复杂度指标截断至12,取平均值,返回reading_complexity值,上限为故事主题适宜年龄

数据生成

  • 角色描述: 约300种
  • 事件描述: 约500种
  • 生成方式: 随机选择角色和事件作为GPT4生成故事的提示

使用许可

  • 许可类型: CC BY-NC 4.0
  • 使用限制: 仅限非商业用途
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作