five

FareedKhan/1k_stories_100_genre

收藏
Hugging Face2023-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FareedKhan/1k_stories_100_genre
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1000个故事,涵盖100种不同的体裁。每个故事以表格形式表示,包含唯一ID、标题、故事内容和体裁。数据集的格式包括id(唯一标识符)、title(故事标题)、story(故事内容)和genre(故事体裁)。示例数据框展示了这些字段的具体内容。标题的平均字数为6个单词,故事的平均字数为960个单词。

该数据集包含1000个故事,涵盖100种不同的体裁。每个故事以表格形式表示,包含唯一ID、标题、故事内容和体裁。数据集的格式包括id(唯一标识符)、title(故事标题)、story(故事内容)和genre(故事体裁)。示例数据框展示了这些字段的具体内容。标题的平均字数为6个单词,故事的平均字数为960个单词。
提供机构:
FareedKhan
原始信息汇总

数据集文档

概述

该数据集包含1000个故事,跨越100个不同类型。每个故事以数据框的表格格式表示。数据集包括唯一ID、标题和每个故事的内容。

类型列表

所有类型的列表可以在genres.txt文件中找到。

python with open(story_genres.pkl, rb) as f: story_genres = pickle.load(f)

类型列表示例:

python genres = [Sci-Fi, Comedy, ...]

数据框格式

数据集的结构如下:

  1. id: 每个数据框的唯一标识符。
  2. title: 故事的标题。
  3. story: 故事的内容。
  4. genre: 故事的类型。

示例数据框

id title story genre
25235 The Unseen Miracle It was a stormy night in ... Horror
... ... ... ...

平均字数长度

  • 标题:6个单词
  • 故事:960个单词

许可证

该数据集在cc-by-2.0许可证下发布。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个多类型故事集合,包含1000个故事,每个故事都有独特的标题、内容和明确的类型标签。数据集结构化为表格形式,便于进行数据分析和机器学习任务,适用于文本分类、自然语言处理等领域的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作