five

fairytales

收藏
Hugging Face2024-12-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/sumuks/fairytales
下载链接
链接失效反馈
官方服务:
资源简介:
数据集'FairyTales 🦄'包含278个来自15个不同类别的童话故事。每个故事条目包括标题、类别、完整内容和一个由OpenAI的`gpt-4o-0824`生成的摘要。该数据集适用于多种NLP任务,如摘要生成、文本分类等。它源自FairytaleQA数据集,并采用Apache-2.0许可证。

The dataset 'FairyTales 🦄' contains 278 fairy tales spanning 15 distinct categories. Each story entry comprises its title, category, full content, and a summary generated by OpenAI's `gpt-4o-0824`. This dataset supports a wide range of NLP tasks, including summarization, text classification, and more. It is derived from the FairytaleQA dataset and released under the Apache-2.0 License.
创建时间:
2024-12-05
原始信息汇总

FairyTales 🦄 Dataset

概述

  • 名称: FairyTales 🦄
  • 任务类别:
    • 摘要生成
    • 文本分类
    • 标记分类
    • 问答
    • 句子相似度
    • 文本到文本生成
    • 文本生成
    • 翻译
    • 特征提取
  • 语言: 英语、西班牙语、波兰语
  • 标签: 文学
  • 大小: 1K<n<10K

数据集信息

  • 特征:
    • id: 字符串
    • title: 字符串
    • category: 字符串
    • summary: 字符串
    • content: 字符串
    • content_length: 整数
  • 分割:
    • train: 278个样本,3328889字节
  • 下载大小: 1946357字节
  • 数据集大小: 3328889字节

描述

  • 来源: 来自FairytaleQA Dataset
  • 内容: 包含278个故事,分为15个类别/来源。每个故事包含标题、类别、内容和摘要。

统计信息

  • 总故事数: 278
  • 类别数: 15
  • 平均每故事的标记数: 2816.2
  • 最小标记数: 10
  • 最大标记数: 10174

类别分布

                       count

first-round 36 norwegian-fairybook 33 chinese-fairybook 28 native-american-fairybook 24 swedish-fairybook 23 lilac-fairybook 21 scottish-fairybook 19 andersen-fairybook 19 japanese-fairybook 19 irish-fairybook 15 beatrix-potter-fairybook 13 grimm-fairybook 11 blue-fairybook 8 green-fairybook 6 wonderclock-fairybook 3

摘要生成提示

  • 提示: 使用OpenAI gpt-4o-0824生成摘要。

可视化

  • 标记分布: Token Distribution
  • 类别分布: Category Distribution

使用示例

python from datasets import load_dataset

dataset = load_dataset("sumuks/fairytales")

示例: 访问第一个故事

story = dataset[train][0] print(f"Title: {story[title]}") print(f"Category: {story[category]}") print(f"First 200 chars: {story[content][:200]}...")

许可证

  • 许可证: Apache-2.0
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于FairytaleQA Dataset,汇集了来自15个不同类别/来源的278个童话故事。每个故事条目包含标题、类别、全文内容及由OpenAI `gpt-4o-0824`生成的故事摘要。数据集的构建过程中,特别注重内容的整理与标准化,确保每个故事的结构清晰,便于后续的分析与应用。
使用方法
使用该数据集时,用户可以通过`datasets`库轻松加载数据,并访问各个故事的详细信息。例如,用户可以获取故事的标题、类别和前200个字符的内容。该数据集适用于多种自然语言处理任务,包括摘要生成、文本分类、问答系统等,为研究者和开发者提供了丰富的资源以进行相关领域的探索与实验。
背景与挑战
背景概述
在文学研究与自然语言处理领域,童话故事作为一种独特的文本形式,承载着丰富的文化与语言信息。FairyTales数据集由UCI SoE团队基于FairytaleQA Dataset构建,旨在为多任务自然语言处理提供高质量的童话故事资源。该数据集收录了278篇来自15个不同文化背景的童话故事,每篇故事均包含标题、类别、内容及由OpenAI的GPT-4模型生成的摘要。这一数据集的创建不仅丰富了文本数据的多样性,还为文本生成、分类、摘要等任务提供了宝贵的训练与测试资源,推动了相关领域的研究进展。
当前挑战
FairyTales数据集在构建过程中面临多项挑战。首先,如何从不同文化背景的童话故事中提取出具有代表性的文本内容,确保数据的多样性与平衡性,是一个重要的技术难题。其次,生成高质量的文本摘要需要依赖先进的自然语言处理模型,而模型的选择与调优直接影响摘要的准确性与可读性。此外,数据集的规模与类别分布的均衡性也是需要解决的问题,以确保其在多任务学习中的有效性。这些挑战不仅涉及数据处理的技术层面,还要求研究者对文本内容的深度理解与文化背景的敏感性。
常用场景
经典使用场景
在自然语言处理领域,FairyTales数据集的经典使用场景主要集中在文本生成与摘要任务中。研究者可以利用该数据集训练模型,生成具有连贯性和故事性的文本,或从长篇故事中提取关键信息,生成简洁的摘要。此外,该数据集还适用于多语言翻译任务,通过不同语言版本的故事文本,提升跨语言模型的翻译能力。
解决学术问题
FairyTales数据集为学术界提供了丰富的故事文本资源,解决了文本生成、摘要和翻译等任务中数据稀缺的问题。通过该数据集,研究者能够探索如何从复杂文本中提取关键信息,并生成高质量的摘要,这对于自动文档摘要技术的发展具有重要意义。同时,该数据集的多语言特性为跨语言研究提供了宝贵的资源,推动了多语言模型的优化与应用。
实际应用
在实际应用中,FairyTales数据集可用于开发智能教育工具,帮助学生快速理解复杂的故事内容,或生成适合不同年龄段的阅读材料。此外,该数据集还可应用于内容创作领域,通过生成式模型自动生成具有创意的故事文本,为作家和编剧提供灵感。在跨文化交流中,该数据集的多语言翻译功能有助于促进不同文化间的理解与沟通。
数据集最近研究
最新研究方向
近年来,fairytales数据集在文学与自然语言处理(NLP)领域的研究中展现出显著的前沿性。该数据集不仅为文本生成、摘要、分类等任务提供了丰富的资源,还为跨文化故事理解与比较研究开辟了新的路径。特别是在多语言翻译与生成任务中,fairytales数据集的多样性为模型训练提供了宝贵的语料,推动了多语言NLP技术的进步。此外,该数据集在故事情节分析与情感识别等领域的应用,也为文学研究与人工智能的交叉探索提供了新的视角。通过结合先进的AI技术,如GPT-4等,fairytales数据集在生成式摘要与内容理解方面的潜力得到了进一步挖掘,为未来的文学与AI融合研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作