five

BookSum

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/BookSum
下载链接
链接失效反馈
官方服务:
资源简介:
BookSum 是用于长篇叙事摘要的数据集集合。该数据集涵盖了来自文学领域的源文档,例如小说、戏剧和故事,并包括高度抽象的人工书面摘要,其难度越来越高,分为三个粒度级别:段落级、章节级和书籍级。该数据集的领域和结构对摘要系统提出了一系列独特的挑战,其中包括:处理非常长的文档、非平凡的因果和时间依赖性以及丰富的话语结构。 BookSum 包含 142,753 段、12,293 章和 436 本书的摘要。

BookSum is a collection of datasets for long-form narrative summarization. It encompasses source documents from literary domains, including novels, plays, and stories, as well as highly abstract, manually written summaries with escalating difficulty, which are classified into three granularity levels: passage-level, chapter-level, and book-level. The domain and structure of this dataset pose a series of unique challenges for summarization systems, including handling extremely long documents, non-trivial causal and temporal dependencies, and rich discourse structures. BookSum contains summaries for 142,753 passages, 12,293 chapters, and 436 books.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
BookSum是一个长篇叙事摘要数据集,涵盖文学领域的多种文档类型,并提供三个粒度级别的摘要。其规模庞大,包含超过14万段、1.2万章和436本书的摘要,旨在挑战摘要系统处理复杂文本的能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作