FareedKhan/1k_stories_100_genre

Name: FareedKhan/1k_stories_100_genre
Creator: FareedKhan
Published: 2023-12-08 17:48:44
License: 暂无描述

Hugging Face2023-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FareedKhan/1k_stories_100_genre

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1000个故事，涵盖100种不同的体裁。每个故事以表格形式表示，包含唯一ID、标题、故事内容和体裁。数据集的格式包括id（唯一标识符）、title（故事标题）、story（故事内容）和genre（故事体裁）。示例数据框展示了这些字段的具体内容。标题的平均字数为6个单词，故事的平均字数为960个单词。

提供机构：

FareedKhan

原始信息汇总

数据集文档

概述

该数据集包含1000个故事，跨越100个不同类型。每个故事以数据框的表格格式表示。数据集包括唯一ID、标题和每个故事的内容。

类型列表

所有类型的列表可以在genres.txt文件中找到。

python with open(story_genres.pkl, rb) as f: story_genres = pickle.load(f)

类型列表示例：

python genres = [Sci-Fi, Comedy, ...]

数据框格式

数据集的结构如下：

id: 每个数据框的唯一标识符。
title: 故事的标题。
story: 故事的内容。
genre: 故事的类型。

示例数据框

id	title	story	genre
25235	The Unseen Miracle	It was a stormy night in ...	Horror
...	...	...	...

平均字数长度

标题：6个单词
故事：960个单词

许可证

该数据集在cc-by-2.0许可证下发布。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个多类型故事集合，包含1000个故事，每个故事都有独特的标题、内容和明确的类型标签。数据集结构化为表格形式，便于进行数据分析和机器学习任务，适用于文本分类、自然语言处理等领域的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集