fairytales

Hugging Face2024-12-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/sumuks/fairytales

下载链接

链接失效反馈

官方服务：

资源简介：

数据集'FairyTales 🦄'包含278个来自15个不同类别的童话故事。每个故事条目包括标题、类别、完整内容和一个由OpenAI的`gpt-4o-0824`生成的摘要。该数据集适用于多种NLP任务，如摘要生成、文本分类等。它源自FairytaleQA数据集，并采用Apache-2.0许可证。

The dataset 'FairyTales 🦄' contains 278 fairy tales spanning 15 distinct categories. Each story entry comprises its title, category, full content, and a summary generated by OpenAI's `gpt-4o-0824`. This dataset supports a wide range of NLP tasks, including summarization, text classification, and more. It is derived from the FairytaleQA dataset and released under the Apache-2.0 License.

创建时间：

2024-12-05

原始信息汇总

FairyTales 🦄 Dataset

概述

名称: FairyTales 🦄
任务类别:
- 摘要生成
- 文本分类
- 标记分类
- 问答
- 句子相似度
- 文本到文本生成
- 文本生成
- 翻译
- 特征提取
语言: 英语、西班牙语、波兰语
标签: 文学
大小: 1K<n<10K

数据集信息

特征:
- id: 字符串
- title: 字符串
- category: 字符串
- summary: 字符串
- content: 字符串
- content_length: 整数
分割:
- train: 278个样本，3328889字节
下载大小: 1946357字节
数据集大小: 3328889字节

描述

来源: 来自FairytaleQA Dataset
内容: 包含278个故事，分为15个类别/来源。每个故事包含标题、类别、内容和摘要。

统计信息

总故事数: 278
类别数: 15
平均每故事的标记数: 2816.2
最小标记数: 10
最大标记数: 10174

类别分布

                       count

first-round 36 norwegian-fairybook 33 chinese-fairybook 28 native-american-fairybook 24 swedish-fairybook 23 lilac-fairybook 21 scottish-fairybook 19 andersen-fairybook 19 japanese-fairybook 19 irish-fairybook 15 beatrix-potter-fairybook 13 grimm-fairybook 11 blue-fairybook 8 green-fairybook 6 wonderclock-fairybook 3

摘要生成提示

提示: 使用OpenAI gpt-4o-0824生成摘要。

可视化

标记分布:
类别分布:

使用示例

python from datasets import load_dataset

dataset = load_dataset("sumuks/fairytales")

示例: 访问第一个故事

story = dataset[train][0] print(f"Title: {story[title]}") print(f"Category: {story[category]}") print(f"First 200 chars: {story[content][:200]}...")

许可证

许可证: Apache-2.0

搜集汇总

数据集介绍

构建方式

该数据集的构建基于FairytaleQA Dataset，汇集了来自15个不同类别/来源的278个童话故事。每个故事条目包含标题、类别、全文内容及由OpenAI `gpt-4o-0824`生成的故事摘要。数据集的构建过程中，特别注重内容的整理与标准化，确保每个故事的结构清晰，便于后续的分析与应用。

使用方法

使用该数据集时，用户可以通过`datasets`库轻松加载数据，并访问各个故事的详细信息。例如，用户可以获取故事的标题、类别和前200个字符的内容。该数据集适用于多种自然语言处理任务，包括摘要生成、文本分类、问答系统等，为研究者和开发者提供了丰富的资源以进行相关领域的探索与实验。

背景与挑战

背景概述

在文学研究与自然语言处理领域，童话故事作为一种独特的文本形式，承载着丰富的文化与语言信息。FairyTales数据集由UCI SoE团队基于FairytaleQA Dataset构建，旨在为多任务自然语言处理提供高质量的童话故事资源。该数据集收录了278篇来自15个不同文化背景的童话故事，每篇故事均包含标题、类别、内容及由OpenAI的GPT-4模型生成的摘要。这一数据集的创建不仅丰富了文本数据的多样性，还为文本生成、分类、摘要等任务提供了宝贵的训练与测试资源，推动了相关领域的研究进展。

当前挑战

FairyTales数据集在构建过程中面临多项挑战。首先，如何从不同文化背景的童话故事中提取出具有代表性的文本内容，确保数据的多样性与平衡性，是一个重要的技术难题。其次，生成高质量的文本摘要需要依赖先进的自然语言处理模型，而模型的选择与调优直接影响摘要的准确性与可读性。此外，数据集的规模与类别分布的均衡性也是需要解决的问题，以确保其在多任务学习中的有效性。这些挑战不仅涉及数据处理的技术层面，还要求研究者对文本内容的深度理解与文化背景的敏感性。

常用场景

经典使用场景

在自然语言处理领域，FairyTales数据集的经典使用场景主要集中在文本生成与摘要任务中。研究者可以利用该数据集训练模型，生成具有连贯性和故事性的文本，或从长篇故事中提取关键信息，生成简洁的摘要。此外，该数据集还适用于多语言翻译任务，通过不同语言版本的故事文本，提升跨语言模型的翻译能力。

解决学术问题

FairyTales数据集为学术界提供了丰富的故事文本资源，解决了文本生成、摘要和翻译等任务中数据稀缺的问题。通过该数据集，研究者能够探索如何从复杂文本中提取关键信息，并生成高质量的摘要，这对于自动文档摘要技术的发展具有重要意义。同时，该数据集的多语言特性为跨语言研究提供了宝贵的资源，推动了多语言模型的优化与应用。

实际应用

在实际应用中，FairyTales数据集可用于开发智能教育工具，帮助学生快速理解复杂的故事内容，或生成适合不同年龄段的阅读材料。此外，该数据集还可应用于内容创作领域，通过生成式模型自动生成具有创意的故事文本，为作家和编剧提供灵感。在跨文化交流中，该数据集的多语言翻译功能有助于促进不同文化间的理解与沟通。

数据集最近研究