five

ubaada/booksum-complete-cleaned

收藏
Hugging Face2023-11-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ubaada/booksum-complete-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含BookSum数据集中的书籍和章节摘要,与kmfoda/booksum数据集不同,它包含了书籍和章节的摘要,并且修正了一些不匹配的摘要,删除了不必要的列,并包含了最少的文本到摘要的行。每个文本行包含一个摘要数组。
提供机构:
ubaada
原始信息汇总

BookSum 摘要数据集

数据集概述

  • 任务类别: 摘要生成、文本生成
  • 语言: 英语
  • 数据集名称: BookSum Summarization Dataset Clean
  • 数据集大小: 1K<n<10K

配置信息

  • 书籍配置:
    • 训练集: books/train.jsonl
    • 测试集: books/test.jsonl
    • 验证集: books/val.jsonl
  • 章节配置:
    • 训练集: chapters/train.jsonl
    • 测试集: chapters/test.jsonl
    • 验证集: chapters/val.jsonl

数据集描述

  • 包含书籍和章节摘要,与仅包含章节数据集的 kmfoda/booksum 不同。
  • 修正了一些不匹配的摘要,删除了不必要的列,每行包含一个摘要数组。

数据集分布

  • 章节数据集:
    • 训练集: 9712 个摘要,178 个缺失,9534 个成功处理(98.17%),5653 个章节
    • 测试集: 1432 个摘要,0 个缺失,1432 个成功处理(100.0%),950 个章节
    • 验证集: 1485 个摘要,0 个缺失,1485 个成功处理(100.0%),854 个章节
  • 书籍数据集:
    • 训练集: 314 个摘要,0 个缺失,314 个成功处理(100.0%),151 本书
    • 测试集: 46 个摘要,0 个缺失,46 个成功处理(100.0%),17 本书
    • 验证集: 45 个摘要,0 个缺失,45 个成功处理(100.0%),19 本书

数据集结构

  • 章节数据集:
    • bid: 书籍ID
    • book_title: 书名
    • chapter_id: 章节ID
    • text: 原始章节文本
    • summary: 不同来源的摘要列表
    • is_aggregate: 是否包含多个章节
  • 书籍数据集:
    • bid: 书籍ID
    • title: 书名
    • text: 原始文本
    • summary: 不同来源的摘要列表

结果与比较

  • kmfoda/booksum 相比,在章节子数据集的测试分割上,R1/R2 分数略有提高,可能是由于对对齐文件中的不匹配进行了清理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作