Coherent Summarization Dataset

Name: Coherent Summarization Dataset
Creator: 亚利桑那州立大学, 美国 2Adobe 研究, 美国
Published: 2024-07-06 04:25:04
License: 暂无描述

arXiv2024-07-06 更新2024-07-12 收录

下载链接：

https://github.com/Mihir3009/Extract-AI

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为Coherent Summarization Dataset，由亚利桑那州立大学和Adobe研究共同创建，旨在提高抽取式摘要的连贯性。数据集包含1000条样本，涵盖新闻、辩论、电视节目、会议和对话五个类别，通过专家标注和自然语言反馈收集。创建过程中，专家从源文档中提取重要句子并提供反馈，以生成连贯的摘要。该数据集主要用于通过监督微调大型语言模型，以生成更连贯的抽取式摘要，解决摘要生成中的连贯性问题。

Coherent Summarization Dataset is a curated dataset co-developed by Arizona State University and Adobe Research, designed to improve the coherence of extractive summarization outputs. It comprises 1,000 annotated samples across five domains: news, debates, TV programs, meetings, and conversations, collected via expert annotation and natural language feedback. During the dataset construction process, experts extract salient sentences from source documents and furnish targeted feedback to generate coherent summaries. This dataset is primarily intended for supervised fine-tuning of large language models (LLMs) to produce more coherent extractive summaries, thus mitigating the coherence-related challenges in automatic summarization.

提供机构：

亚利桑那州立大学, 美国 2Adobe 研究, 美国

创建时间：

2024-07-06

原始信息汇总

数据集概述

数据描述

数据文件路径: /data/annotated_data/data.json
数据格式: JSON
数据结构: json { "type": "[Type of the document]", "document": "[Text corresponding to source document]", "falcon40B_summary": "[Extractive summary generated by prompting a Falcon-40B-Instruct model]", "annotation_1": { "coherent_summary": "[Human annotated coherent summary of document]", "summary_feedback": "[Feedback on the steps to go from the model summary to the gold summary]", "additional_feedback": "[Additional feedback if user wants to provide][Optional]", "scores": { "relevance": "[int]", "coherence": "[int]", "consistency": "[int]" } }, "annotation_2": "[Similar format as annotation 1]", "annotation_3": "[Similar format as annotation 1]" }

数据集内容

文档类型: 包含不同类型的文档。
源文档文本: 每个文档对应的原始文本。
模型生成摘要: 由Falcon-40B-Instruct模型生成的摘要。
人工标注摘要: 包含三个不同的人工标注摘要，每个摘要包含：
- 连贯摘要: 人工标注的连贯摘要。
- 摘要反馈: 从模型摘要到黄金摘要的步骤反馈。
- 额外反馈: 可选的额外反馈。
- 评分: 包含相关性、连贯性和一致性的评分。

数据集用途

该数据集用于通过人工反馈来提高抽取式摘要的连贯性。
数据集包含人工标注的反馈和评分，用于训练和评估模型。

搜集汇总

数据集介绍

构建方式

Coherent Summarization Dataset 的构建旨在解决现有摘要数据集中缺乏用户意图的问题。该数据集通过一个系统化的过程收集了来自五个公开数据集的连贯摘要和自然语言用户反馈。数据收集过程包括三个阶段：首先，从五个不同类别（新闻、辩论、电视节目、会议和对话）的公开数据集中随机选择文本；其次，使用大型语言模型（LLMs）为所选文本生成连贯摘要；最后，雇佣专家标注人员对生成的摘要进行审查，并提供自然语言反馈，以改善摘要的连贯性。每个数据实例包含源文本、初始模型摘要、反馈、人工标注的连贯摘要和评分。

使用方法

使用 Coherent Summarization Dataset 的方法包括：首先，使用数据集中的源文本和人工标注的连贯摘要对大型语言模型进行监督微调；其次，使用微调后的模型生成新的摘要，并通过 Rouge-L 指标评估摘要的连贯性；最后，可以使用人工评估来进一步验证模型的摘要质量。此外，该数据集还可以用于研究和开发新的摘要算法，以提高摘要的连贯性和准确性。

背景与挑战

背景概述

在自然语言处理领域，摘要技术作为信息压缩的重要手段，对于处理日益增长的信息量至关重要。摘要技术主要分为抽取式摘要和生成式摘要两种。抽取式摘要技术通过从原始文本中选取有意义的句子或短语来生成摘要，保持了与原始内容的忠实性，因而在视频剪辑、法律文件摘要等任务中具有广泛的应用。然而，抽取式摘要生成的摘要往往缺乏连贯性，这对于用户体验来说是一个关键问题。为了解决这一问题，Mihir Parmar等人提出了一个名为Coherent Summarization Dataset的数据集，该数据集由五个公开数据集的人类标注的连贯摘要和自然语言用户反馈组成，旨在为提高抽取式摘要的连贯性提供有价值的见解。

当前挑战

尽管大型语言模型（LLMs）在抽取式摘要方面取得了显著进展，但这些摘要经常表现出不连贯性。连贯的摘要对于用户的可读性是一个重要方面，而现有的数据集和基准并没有考虑到用户意图来提高抽取式摘要的连贯性。此外，构建过程中还遇到了一些挑战，例如如何收集和利用自然语言用户反馈来对LLMs进行微调，以增强其生成的摘要的连贯性。在实验中，研究人员使用Falcon-40B和Llama-2-13B等LLMs进行实验，发现通过自然语言人类反馈进行监督微调后，生成的摘要的连贯性有了显著提高。

常用场景

经典使用场景

在自然语言处理领域，提取式摘要扮演着至关重要的角色，因其能够高效地总结各类内容，同时保持对原始内容的忠实性。然而，尽管大型语言模型（LLMs）在提取式摘要方面取得了显著进展，但生成的摘要常常缺乏连贯性。连贯性摘要的一个重要方面是其对预期用户的可读性。尽管已经提出了许多数据集和基准测试来创建连贯的提取式摘要，但其中没有考虑用户意图来提高提取式摘要的连贯性。为此，我们提出了一种系统创建的人类注释数据集，其中包括五个公开可用数据集的连贯摘要和自然语言用户反馈，为如何提高提取式摘要的连贯性提供了宝贵的见解。我们利用这个数据集，通过使用自然语言人类反馈进行监督微调，来对齐LLMs，从而提高其生成的摘要的连贯性。使用Falcon-40B和Llama-2-13B进行的初步实验表明，在生成连贯摘要方面，性能显著提高了（约10% Rouge-L）。我们还利用人类反馈来对指令调整模型（如FLAN-T5）的结果进行基准测试，从而得出了一些有趣的发现。

解决学术问题

连贯性是文本摘要的关键属性，因为它与用户体验密切相关。尽管已经提出了许多数据集和基准测试来创建连贯的提取式摘要，但其中没有考虑用户意图来提高提取式摘要的连贯性。我们的工作旨在通过使用自然语言人类反馈进行监督微调，来提高LLMs生成的摘要的连贯性。通过这种方式，我们旨在解决提取式摘要中缺乏连贯性的问题，并提高用户体验。

实际应用

连贯性摘要在实际应用中具有重要的价值。例如，视频缩短和法律文件摘要等任务需要精确地保留原始文本中的特定细节，提取式方法更适合这些任务。然而，提取式摘要常常生成缺乏连贯性的摘要，这会影响用户体验。通过提高LLMs生成的摘要的连贯性，我们可以改善用户体验，并使提取式摘要在实际应用中更加有效。

数据集最近研究