Summaries with Unstructured Evidence Text dataset (SUnsET)

Name: Summaries with Unstructured Evidence Text dataset (SUnsET)
Creator: 哥本哈根大学计算机科学系, 密歇根大学计算机科学与工程系, 密歇根大学信息学院
Published: 2025-02-20 17:57:42
License: 暂无描述

arXiv2025-02-20 更新2025-02-22 收录

下载链接：

https://github.com/dwright37/unstructured-evidence-sunset

下载链接

链接失效反馈

官方服务：

资源简介：

SUnsET是一个合成的、跨领域的、无固定粒度证据引用的摘要数据集。该数据集通过一种新颖的归纳生成管道生成，能够用于监督下游模型，使其能够从长语境中生成有关查询的、带有无结构证据引用的、相关的和一致性的摘要。数据集的构建目的是为了解决现有模型在提取和引用无结构证据方面的挑战，并解决证据在文本中间丢失的问题。

SUnsET is a synthetic, cross-domain summarization dataset with evidence citations of no fixed granularity. This dataset is generated via a novel inductive generation pipeline, and can be used to supervise downstream models to generate relevant, consistent, query-focused summaries with unstructured evidence citations from long contexts. The dataset is constructed to address the challenges faced by existing models in extracting and citing unstructured evidence, as well as the problem of evidence loss in the middle of texts.

提供机构：

哥本哈根大学计算机科学系, 密歇根大学计算机科学与工程系, 密歇根大学信息学院

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

SUnsET数据集是通过一个新颖的领域无关的管道生成的合成数据集，用于监督LLMs适应长上下文查询聚焦摘要任务。该管道包括六个阶段，分别是生成文档标题、文档大纲、查询、摘要和证据、文档段落生成、摘要和证据的精炼以及验证。每个阶段都使用预训练的语言模型（如GPT-4）生成数据，并进行验证和筛选，以确保数据的质量和多样性。

特点

SUnsET数据集具有以下特点：1）合成数据，覆盖多个领域，可用于训练和评估LLMs在长上下文查询聚焦摘要任务上的性能；2）包含长文档、查询、摘要和证据，可用于训练LLMs生成相关、一致和透明的摘要；3）文档模块化，可用于研究证据的位置偏差，并提高摘要的质量。

使用方法

SUnsET数据集可用于训练和评估LLMs在长上下文查询聚焦摘要任务上的性能。具体使用方法包括：1）使用SUnsET数据集进行微调，以改进LLMs的摘要质量和证据引用能力；2）使用SUnsET数据集进行评估，以评估LLMs在长上下文查询聚焦摘要任务上的性能，包括证据引用的准确性和摘要的相关性和一致性。

背景与挑战

背景概述

随着自然语言处理（NLP）系统，尤其是大型语言模型（LLMs）的发展，处理长文本并基于用户查询生成连贯摘要的能力已成为研究前沿。这种任务的难点在于，在给定查询的情况下，需要关注源文档中的相关信息，并同时提炼出连贯、事实一致且精炼的见解。尽管LLMs在处理这类任务上取得了显著进展，但人们仍然倾向于使用传统的检索源（如搜索引擎）来进行关键查询，因为它们需要透明度和来源追溯。为了提高长文本查询聚焦摘要的灵活性和可解释性，研究者们提出了无结构证据引用的任务。无结构证据引用允许模型从其上下文中提取无固定粒度的文本跨度，以用作摘要的支持信息。

当前挑战

LLMs在理解和关注输入上下文中的信息时存在位置偏差，这可能会影响证据引用。现有的系统在生成和正确引用无结构证据方面存在困难，且证据往往被“淹没在中间”。为了缓解这一问题，研究者们创建了SUnsET数据集，这是一个使用新颖的领域无关管道生成的合成数据集，可用于监督LLMs适应这一任务。然而，构建SUnsET数据集的过程面临诸多挑战，包括LLMs生成无结构证据时的幻觉问题、证据准确性和相关性问题，以及如何减少位置偏差以提高摘要质量。此外，LLMs在处理长文本时存在“淹没在中间”的问题，即模型倾向于关注输入上下文中的早期和晚期标记，这可能会影响模型选择的证据。为了解决这些问题，研究者们提出了基于SUnsET数据集的微调方法，并使用低秩适配器（LoRA）对LLMs进行训练，以提高无结构证据引用和摘要质量，同时减少位置偏差。

常用场景

经典使用场景

在长文本摘要任务中，SUnsET数据集被广泛用于训练大型语言模型（LLMs）以生成针对用户查询的摘要，并从上下文中提取和引用非结构化证据。这有助于提高摘要的透明度和可靠性，使得LLMs在处理诸如书籍、研究论文和法律文件等长文本时能够更准确地引用证据，并生成更相关和一致的事实性摘要。

衍生相关工作

SUnsET数据集的发布促进了LLMs在长文本摘要任务中的研究。例如，基于SUnsET数据集，研究人员可以进一步探索如何减少LLMs在证据提取和引用中的位置偏差，以及如何提高LLMs在处理长文本时的上下文理解能力。此外，SUnsET数据集还可以与其他数据集结合使用，以训练更强大的LLMs，从而在更广泛的领域和任务中发挥作用。

数据集最近研究