ubaada/booksum-complete-cleaned
收藏Hugging Face2023-11-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ubaada/booksum-complete-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含BookSum数据集中的书籍和章节摘要,与kmfoda/booksum数据集不同,它包含了书籍和章节的摘要,并且修正了一些不匹配的摘要,删除了不必要的列,并包含了最少的文本到摘要的行。每个文本行包含一个摘要数组。
提供机构:
ubaada
原始信息汇总
BookSum 摘要数据集
数据集概述
- 任务类别: 摘要生成、文本生成
- 语言: 英语
- 数据集名称: BookSum Summarization Dataset Clean
- 数据集大小: 1K<n<10K
配置信息
- 书籍配置:
- 训练集:
books/train.jsonl - 测试集:
books/test.jsonl - 验证集:
books/val.jsonl
- 训练集:
- 章节配置:
- 训练集:
chapters/train.jsonl - 测试集:
chapters/test.jsonl - 验证集:
chapters/val.jsonl
- 训练集:
数据集描述
- 包含书籍和章节摘要,与仅包含章节数据集的
kmfoda/booksum不同。 - 修正了一些不匹配的摘要,删除了不必要的列,每行包含一个摘要数组。
数据集分布
- 章节数据集:
- 训练集: 9712 个摘要,178 个缺失,9534 个成功处理(98.17%),5653 个章节
- 测试集: 1432 个摘要,0 个缺失,1432 个成功处理(100.0%),950 个章节
- 验证集: 1485 个摘要,0 个缺失,1485 个成功处理(100.0%),854 个章节
- 书籍数据集:
- 训练集: 314 个摘要,0 个缺失,314 个成功处理(100.0%),151 本书
- 测试集: 46 个摘要,0 个缺失,46 个成功处理(100.0%),17 本书
- 验证集: 45 个摘要,0 个缺失,45 个成功处理(100.0%),19 本书
数据集结构
- 章节数据集:
bid: 书籍IDbook_title: 书名chapter_id: 章节IDtext: 原始章节文本summary: 不同来源的摘要列表is_aggregate: 是否包含多个章节
- 书籍数据集:
bid: 书籍IDtitle: 书名text: 原始文本summary: 不同来源的摘要列表
结果与比较
- 与
kmfoda/booksum相比,在章节子数据集的测试分割上,R1/R2 分数略有提高,可能是由于对对齐文件中的不匹配进行了清理。



