fairytales
收藏FairyTales 🦄 Dataset
概述
- 名称: FairyTales 🦄
- 任务类别:
- 摘要生成
- 文本分类
- 标记分类
- 问答
- 句子相似度
- 文本到文本生成
- 文本生成
- 翻译
- 特征提取
- 语言: 英语、西班牙语、波兰语
- 标签: 文学
- 大小: 1K<n<10K
数据集信息
- 特征:
id: 字符串title: 字符串category: 字符串summary: 字符串content: 字符串content_length: 整数
- 分割:
train: 278个样本,3328889字节
- 下载大小: 1946357字节
- 数据集大小: 3328889字节
描述
- 来源: 来自FairytaleQA Dataset
- 内容: 包含278个故事,分为15个类别/来源。每个故事包含标题、类别、内容和摘要。
统计信息
- 总故事数: 278
- 类别数: 15
- 平均每故事的标记数: 2816.2
- 最小标记数: 10
- 最大标记数: 10174
类别分布
count
first-round 36 norwegian-fairybook 33 chinese-fairybook 28 native-american-fairybook 24 swedish-fairybook 23 lilac-fairybook 21 scottish-fairybook 19 andersen-fairybook 19 japanese-fairybook 19 irish-fairybook 15 beatrix-potter-fairybook 13 grimm-fairybook 11 blue-fairybook 8 green-fairybook 6 wonderclock-fairybook 3
摘要生成提示
- 提示: 使用OpenAI
gpt-4o-0824生成摘要。
可视化
- 标记分布:

- 类别分布:

使用示例
python from datasets import load_dataset
dataset = load_dataset("sumuks/fairytales")
示例: 访问第一个故事
story = dataset[train][0] print(f"Title: {story[title]}") print(f"Category: {story[category]}") print(f"First 200 chars: {story[content][:200]}...")
许可证
- 许可证: Apache-2.0




