BoltMonkey/stories_by_complexity

Name: BoltMonkey/stories_by_complexity
Creator: BoltMonkey
Published: 2024-06-28 06:35:02
License: 暂无描述

Hugging Face2024-06-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/BoltMonkey/stories_by_complexity

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含31156个为4至16岁儿童设计的短篇故事，这些故事是使用GPT4生成的合成数据。除了故事标题、摘要和正文外，还包括故事的类型、叙述方式、时态、主题的年龄适宜性以及文本复杂度指标。文本复杂度指标通过textstat库计算，包括Flesch-Kincaid、Gunning Fog Index、SMOG Index和Automated Readability Index。此外，还计算了阅读年龄适宜性指标。数据集旨在试验基于课程的大型语言模型训练计划，但也适用于任何故事生成的微调应用。数据集包含大约300个不同的角色描述和500个不同的事件，这些被随机选择以生成GPT4的提示。数据集许可为非商业用途，并鼓励用户以道德方式使用。

提供机构：

BoltMonkey

原始信息汇总

儿童故事数据集

概述

数据集名称: Childrens Stories
数据格式: JSON
故事数量: 31156
适用年龄: 4至16岁
数据来源: 由GPT4生成，为合成数据集

内容

故事元素:
- 标题
- 摘要
- 故事文本
- 类型
- 叙述方式
- 时态
- 主题的年龄适宜性（由GPT4确定）
- 文本复杂度指标

文本复杂度指标

计算方法: 使用textstat库计算
指标类型:
- Flesch-Kincaid
- Gunning Fog Index
- SMOG Index
- Automated Readability Index

阅读年龄适宜性

计算方法: 将复杂度指标截断至12，取平均值，返回reading_complexity值，上限为故事主题适宜年龄

数据生成

角色描述: 约300种
事件描述: 约500种
生成方式: 随机选择角色和事件作为GPT4生成故事的提示

使用许可

许可类型: CC BY-NC 4.0
使用限制: 仅限非商业用途

5,000+

优质数据集

54 个

任务类型

进入经典数据集