BookSum
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/BookSum
下载链接
链接失效反馈官方服务:
资源简介:
BookSum 是用于长篇叙事摘要的数据集集合。该数据集涵盖了来自文学领域的源文档,例如小说、戏剧和故事,并包括高度抽象的人工书面摘要,其难度越来越高,分为三个粒度级别:段落级、章节级和书籍级。该数据集的领域和结构对摘要系统提出了一系列独特的挑战,其中包括:处理非常长的文档、非平凡的因果和时间依赖性以及丰富的话语结构。 BookSum 包含 142,753 段、12,293 章和 436 本书的摘要。
BookSum is a collection of datasets for long-form narrative summarization. It encompasses source documents from literary domains, including novels, plays, and stories, as well as highly abstract, manually written summaries with escalating difficulty, which are classified into three granularity levels: passage-level, chapter-level, and book-level. The domain and structure of this dataset pose a series of unique challenges for summarization systems, including handling extremely long documents, non-trivial causal and temporal dependencies, and rich discourse structures. BookSum contains summaries for 142,753 passages, 12,293 chapters, and 436 books.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
BookSum是一个长篇叙事摘要数据集,涵盖文学领域的多种文档类型,并提供三个粒度级别的摘要。其规模庞大,包含超过14万段、1.2万章和436本书的摘要,旨在挑战摘要系统处理复杂文本的能力。
以上内容由遇见数据集搜集并总结生成



