BoltMonkey/stories_by_complexity
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/BoltMonkey/stories_by_complexity
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含31156个为4至16岁儿童设计的短篇故事,这些故事是使用GPT4生成的合成数据。除了故事标题、摘要和正文外,还包括故事的类型、叙述方式、时态、主题的年龄适宜性以及文本复杂度指标。文本复杂度指标通过textstat库计算,包括Flesch-Kincaid、Gunning Fog Index、SMOG Index和Automated Readability Index。此外,还计算了阅读年龄适宜性指标。数据集旨在试验基于课程的大型语言模型训练计划,但也适用于任何故事生成的微调应用。数据集包含大约300个不同的角色描述和500个不同的事件,这些被随机选择以生成GPT4的提示。数据集许可为非商业用途,并鼓励用户以道德方式使用。
提供机构:
BoltMonkey
原始信息汇总
儿童故事数据集
概述
- 数据集名称: Childrens Stories
- 数据格式: JSON
- 故事数量: 31156
- 适用年龄: 4至16岁
- 数据来源: 由GPT4生成,为合成数据集
内容
- 故事元素:
- 标题
- 摘要
- 故事文本
- 类型
- 叙述方式
- 时态
- 主题的年龄适宜性(由GPT4确定)
- 文本复杂度指标
文本复杂度指标
- 计算方法: 使用textstat库计算
- 指标类型:
- Flesch-Kincaid
- Gunning Fog Index
- SMOG Index
- Automated Readability Index
阅读年龄适宜性
- 计算方法: 将复杂度指标截断至12,取平均值,返回reading_complexity值,上限为故事主题适宜年龄
数据生成
- 角色描述: 约300种
- 事件描述: 约500种
- 生成方式: 随机选择角色和事件作为GPT4生成故事的提示
使用许可
- 许可类型: CC BY-NC 4.0
- 使用限制: 仅限非商业用途



