five

ZachW/GPT-BookSum

收藏
Hugging Face2024-03-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZachW/GPT-BookSum
下载链接
链接失效反馈
官方服务:
资源简介:
GPT-BookSum是一个基于BookSum数据集中的故事段落构建的层次化摘要数据集。该数据集在论文《Improving Pacing in Long-Form Story Planning》(EMNLP23)中提出,用于训练一个具体性评估器,以改进故事大纲和生成的节奏控制。摘要由ChatGPT生成,以确保风格统一。数据集包含章节级和段落级的摘要,每个摘要都有相关的统计信息,如摘要长度、原始文本长度、压缩比等。数据集还用于构建训练对,以训练具体性评估器。
提供机构:
ZachW
原始信息汇总

GPT-BOOKSUM 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 摘要生成、文本生成、文本分类
  • 语言: 英语
  • 标签: 故事
  • 美观名称: GPT-BookSum
  • 数据集大小: 100K<n<1M

数据集描述

GPT-BookSum 是一个基于 BookSum 数据集的故事段落的分层摘要数据集。该数据集在 EMNLP23 论文《Improving Pacing in Long-Form Story Planning》中提出,用于训练具体性评估器,进而改善故事大纲和生成的节奏。

数据实例

一个示例数据实例如下: json {"level": "chapter", "turbo_len": 70, "compression ratio": 0.034, "roberta_len": 74, "sub_index": 6, "text": "Grushenka is glad to see Alyosha and sits on his knee, while Rakitin tries to join in their conversation. Grushenka mentions that shes expecting a message from her officer, and gives Rakitin champagne when he asks for it. They all have a conversation about various things including the death of Father Zossima.", "rawtext_turbo_len": 2059, "index": {"bid": "28054", "is_aggregate": true, "source": "cliffnotes", "chapter_path": "all_chapterized_books/28054-chapters/book_vii.txt", "summary_path": "finished_summaries/cliffnotes/The Brothers Karamazov/section_10_part_0.txt", "book_id": "The Brothers Karamazov.book vii.chapter i-chapter iv", "summary_id": "book vii"}}

  • level: 可以是 chapterparagraph
  • text: 摘要文本。
  • turbo_len: 使用 ChatGPT 分词器的摘要令牌数。
  • compression ratio: 压缩比率,即摘要令牌数与原始文本令牌数的比率。
  • roberta_len: 使用 RoBERTa 分词器的摘要令牌数。
  • sub_index: 如果原始文本超过 4,096 个令牌,则将其分割成子章节,sub_index 是子章节的索引。
  • rawtext_turbo_len: 使用 ChatGPT 分词器的原始文本令牌数。
  • index: 原始文本在 BookSum 数据集中的索引。

数据集统计

Chapter-Level Paragraph-Level
Split Size Summary Len Raw Len Raw / Sum Size Summary Len Raw Len Raw / Sum
Train 23,564 133.7 5450.7 40.77 162,122* 58.6 71.6 1.22
Val 3,086 134.2 4607.8 34.34 58,648 56.6 63.7 1.13
Test 3,397 135.1 5440.8 40.27 59,965 59.5 76.4 1.28

文件结构

数据集包含两个文件夹:"chapter-" 和 "paragraph-",每个文件夹包含训练、验证和测试分割的单独 jsonline 文件。

下游应用:构建成对数据集以训练具体性评估器

使用 GPT-BookSum 数据集构建训练对 $(t_0, t_1)$ 来训练具体性评估器 M。训练对通过以下步骤构建:

  1. 从未用于训练的 GPT-BookSum 中采样摘要,并通过 Contriever 的顶部平均嵌入相似性进行配对。
  2. 以 50% 的概率截断较长的摘要,使其长度大致等于较短的摘要。否则,将两个摘要截断为相同的令牌长度,随机选择在 25 到 180 之间的对数刻度上。截断时尊重句子边界。

摘要生成的提示设计

摘要生成的提示设计遵循 Super-NaturalInstructions(Wang et al., 2022)的指导。示例提示如下: json {“role”: “user”, “content”: “Write a summary for the paragraph.

”} {“role”: “user”, “content”: “Paragraph: {Input Raw Text}”} {“role”: “assistant”, “content”: “Summary: In this paragraph, the main story is as follows.”}

引用

@article{wang2023improving, title={Improving Pacing in Long-Form Story Planning}, author={Wang, Yichen and Yang, Kevin and Liu, Xiaoming and Klein, Dan}, journal={arXiv preprint arXiv:2311.04459}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
在叙事文本自动摘要领域,GPT-BookSum数据集通过层次化结构构建,为长篇故事分析提供了重要资源。该数据集源自BookSum中的故事段落,利用GPT-3.5-turbo-0301模型统一生成摘要,确保了文本风格的一致性。原始章节若超过模型上下文限制,会按句子边界分割为子部分进行处理,同时剔除可能暗示文本层次的词汇如“章节”等,以减少模型记忆偏差。数据涵盖章节与段落两个层级,并通过书籍级别划分训练、验证与测试集,形成了结构分明的语料体系。
特点
GPT-BookSum的核心特征在于其层次化摘要设计与统一风格。数据集包含章节与段落两个摘要层级,其中章节摘要的压缩比显著高于段落摘要,体现了不同粒度下的信息密度差异。数据实例中详细记录了摘要长度、原始文本长度及压缩比率等元数据,便于量化分析。统计信息显示,训练集规模达数十万条目,且分割严格遵循书籍级别,有效避免了数据泄露。这些特征共同支撑了该数据集在评估叙事具体性等任务中的实用价值。
使用方法
该数据集主要用于训练具体性评估模型,以优化长篇故事规划的节奏控制。使用方法涉及构建成对训练数据:通过语义相似度匹配摘要对,并随机截断以控制长度,从而聚焦于文本表达的模糊性或具体性差异。输入格式通常采用分隔符连接两个摘要,并根据层级差异标注具体性标签。此外,数据集的层次化结构支持直接用于摘要生成模型的训练与评估,其清晰的文件夹划分与标准化元数据字段,为下游任务提供了便捷的集成接口。
背景与挑战
背景概述
在自然语言处理领域,长文本摘要生成一直是极具挑战性的研究方向,尤其是针对叙事性文本如小说章节的层次化摘要。GPT-BookSum数据集于2023年由Yichen Wang、Kevin Yang、Xiaoming Liu和Dan Klein等研究人员在EMNLP会议上提出,其核心研究问题聚焦于提升长篇幅故事规划中的节奏控制。该数据集基于BookSum故事段落构建,通过ChatGPT生成风格统一的摘要,旨在训练具体性评估器,进而优化故事大纲生成的叙事节奏。这一工作为长文本生成任务提供了重要的数据资源,推动了层次化摘要与叙事结构建模的交叉研究。
当前挑战
GPT-BookSum数据集致力于解决长文本层次化摘要生成中的核心挑战,即如何在保持叙事连贯性的同时,有效控制摘要的抽象程度与细节密度。构建过程中的技术挑战包括:原始文本长度常超出语言模型上下文窗口限制,需进行智能分块处理;不同层级摘要风格不一致,需通过统一生成策略确保数据一致性;为避免模型依赖记忆化知识,必须剔除章节标题等显式粒度指示词。此外,数据标注依赖大语言模型,其生成质量与偏差控制亦是关键难点。
常用场景
经典使用场景
在自然语言处理领域,GPT-BookSum作为层次化摘要数据集,其经典应用场景聚焦于长文本故事内容的自动摘要生成。该数据集通过章节与段落两个层级,为模型提供了从宏观情节到微观细节的摘要样本,使得研究者能够训练和评估模型在多层次文本压缩任务中的表现。这种结构化的摘要数据,尤其适用于探索故事叙述中的信息密度与连贯性平衡问题,为长文本生成任务奠定了数据基础。
实际应用
在实际应用中,GPT-BookSum可服务于智能写作辅助系统与内容生成平台。例如,在自动故事创作或剧本生成工具中,该数据集的层次化摘要能帮助系统规划故事大纲,控制情节展开的详略节奏,避免内容冗余或缺失。同时,其训练的模型可用于教育领域的文本简化工具,辅助学生快速理解文学作品的脉络,提升阅读效率与深度。
衍生相关工作
基于GPT-BookSum,研究者衍生出多项经典工作,其中以CONCOCT系统为代表。该系统利用该数据集训练的具体性评估器,实现了对故事大纲生成中节奏的均匀控制,通过层次化扩展与过滤机制优化长文本的叙事流畅度。此外,该数据集还促进了跨层级摘要对齐、抽象度度量等研究方向,为后续长文本生成模型的评估与改进提供了基准与灵感。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作