fairytales|童话故事数据集|自然语言处理数据集

huggingface2024-12-06 更新2024-12-12 收录

童话故事

自然语言处理

下载链接：

https://huggingface.co/datasets/sumuks/fairytales

下载链接

链接失效反馈

资源简介：

数据集'FairyTales 🦄'包含278个来自15个不同类别的童话故事。每个故事条目包括标题、类别、完整内容和一个由OpenAI的`gpt-4o-0824`生成的摘要。该数据集适用于多种NLP任务，如摘要生成、文本分类等。它源自FairytaleQA数据集，并采用Apache-2.0许可证。

创建时间：

2024-12-05

原始信息汇总

FairyTales 🦄 Dataset

概述

名称: FairyTales 🦄
任务类别:
- 摘要生成
- 文本分类
- 标记分类
- 问答
- 句子相似度
- 文本到文本生成
- 文本生成
- 翻译
- 特征提取
语言: 英语、西班牙语、波兰语
标签: 文学
大小: 1K<n<10K

数据集信息

特征:
- id: 字符串
- title: 字符串
- category: 字符串
- summary: 字符串
- content: 字符串
- content_length: 整数
分割:
- train: 278个样本，3328889字节
下载大小: 1946357字节
数据集大小: 3328889字节

描述

来源: 来自FairytaleQA Dataset
内容: 包含278个故事，分为15个类别/来源。每个故事包含标题、类别、内容和摘要。

统计信息

总故事数: 278
类别数: 15
平均每故事的标记数: 2816.2
最小标记数: 10
最大标记数: 10174

类别分布

                       count

first-round 36 norwegian-fairybook 33 chinese-fairybook 28 native-american-fairybook 24 swedish-fairybook 23 lilac-fairybook 21 scottish-fairybook 19 andersen-fairybook 19 japanese-fairybook 19 irish-fairybook 15 beatrix-potter-fairybook 13 grimm-fairybook 11 blue-fairybook 8 green-fairybook 6 wonderclock-fairybook 3

摘要生成提示

提示: 使用OpenAI gpt-4o-0824生成摘要。

可视化

标记分布:
类别分布:

使用示例

python from datasets import load_dataset

dataset = load_dataset("sumuks/fairytales")

示例: 访问第一个故事

story = dataset[train][0] print(f"Title: {story[title]}") print(f"Category: {story[category]}") print(f"First 200 chars: {story[content][:200]}...")

许可证

许可证: Apache-2.0

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于FairytaleQA Dataset，汇集了来自15个不同类别/来源的278个童话故事。每个故事条目包含标题、类别、全文内容及由OpenAI `gpt-4o-0824`生成的故事摘要。数据集的构建过程中，特别注重内容的整理与标准化，确保每个故事的结构清晰，便于后续的分析与应用。

使用方法

使用该数据集时，用户可以通过`datasets`库轻松加载数据，并访问各个故事的详细信息。例如，用户可以获取故事的标题、类别和前200个字符的内容。该数据集适用于多种自然语言处理任务，包括摘要生成、文本分类、问答系统等，为研究者和开发者提供了丰富的资源以进行相关领域的探索与实验。

背景与挑战

背景概述

在文学研究与自然语言处理领域，童话故事作为一种独特的文本形式，承载着丰富的文化与语言信息。FairyTales数据集由UCI SoE团队基于FairytaleQA Dataset构建，旨在为多任务自然语言处理提供高质量的童话故事资源。该数据集收录了278篇来自15个不同文化背景的童话故事，每篇故事均包含标题、类别、内容及由OpenAI的GPT-4模型生成的摘要。这一数据集的创建不仅丰富了文本数据的多样性，还为文本生成、分类、摘要等任务提供了宝贵的训练与测试资源，推动了相关领域的研究进展。

当前挑战

FairyTales数据集在构建过程中面临多项挑战。首先，如何从不同文化背景的童话故事中提取出具有代表性的文本内容，确保数据的多样性与平衡性，是一个重要的技术难题。其次，生成高质量的文本摘要需要依赖先进的自然语言处理模型，而模型的选择与调优直接影响摘要的准确性与可读性。此外，数据集的规模与类别分布的均衡性也是需要解决的问题，以确保其在多任务学习中的有效性。这些挑战不仅涉及数据处理的技术层面，还要求研究者对文本内容的深度理解与文化背景的敏感性。

常用场景

经典使用场景

在自然语言处理领域，FairyTales数据集的经典使用场景主要集中在文本生成与摘要任务中。研究者可以利用该数据集训练模型，生成具有连贯性和故事性的文本，或从长篇故事中提取关键信息，生成简洁的摘要。此外，该数据集还适用于多语言翻译任务，通过不同语言版本的故事文本，提升跨语言模型的翻译能力。

解决学术问题

FairyTales数据集为学术界提供了丰富的故事文本资源，解决了文本生成、摘要和翻译等任务中数据稀缺的问题。通过该数据集，研究者能够探索如何从复杂文本中提取关键信息，并生成高质量的摘要，这对于自动文档摘要技术的发展具有重要意义。同时，该数据集的多语言特性为跨语言研究提供了宝贵的资源，推动了多语言模型的优化与应用。

实际应用

在实际应用中，FairyTales数据集可用于开发智能教育工具，帮助学生快速理解复杂的故事内容，或生成适合不同年龄段的阅读材料。此外，该数据集还可应用于内容创作领域，通过生成式模型自动生成具有创意的故事文本，为作家和编剧提供灵感。在跨文化交流中，该数据集的多语言翻译功能有助于促进不同文化间的理解与沟通。

数据集最近研究

最新研究方向

近年来，fairytales数据集在文学与自然语言处理（NLP）领域的研究中展现出显著的前沿性。该数据集不仅为文本生成、摘要、分类等任务提供了丰富的资源，还为跨文化故事理解与比较研究开辟了新的路径。特别是在多语言翻译与生成任务中，fairytales数据集的多样性为模型训练提供了宝贵的语料，推动了多语言NLP技术的进步。此外，该数据集在故事情节分析与情感识别等领域的应用，也为文学研究与人工智能的交叉探索提供了新的视角。通过结合先进的AI技术，如GPT-4等，fairytales数据集在生成式摘要与内容理解方面的潜力得到了进一步挖掘，为未来的文学与AI融合研究奠定了坚实基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

TPTP

TPTP（Thousands of Problems for Theorem Provers）是一个包含大量逻辑问题的数据集，主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题，如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

US EPA Air Quality System (AQS)

US EPA Air Quality System (AQS) 数据集包含了美国各地的空气质量监测数据，包括污染物浓度、气象数据、监测站点信息等。该数据集用于监测和评估空气质量，支持环境政策和公众健康研究。

www.epa.gov 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录