LONGINOUTBENCH

Name: LONGINOUTBENCH
Creator: 北京航空航天大学计算机科学与工程学院
Published: 2025-03-10 10:44:36
License: 暂无描述

arXiv2025-03-10 更新2025-03-12 收录

下载链接：

https://github.com/OnlyAR/RAL-Writer

下载链接

链接失效反馈

官方服务：

资源简介：

LONGINOUTBENCH是由北京航空航天大学计算机科学与工程学院创建的一个数据集，旨在评估长文本理解和生成任务。该数据集包含100个样本，每个样本由三篇主题相关的arXiv论文组成，通过阅读这些论文生成一篇综合性的长摘要。数据集的构建考虑了论文的长度、主题分布等因素，并设计了长度评分、一致性评分和品质评分三个评价指标，以全面评估生成的长文本。

LONGINOUTBENCH is a dataset developed by the School of Computer Science and Engineering, Beihang University, aimed at evaluating long-text understanding and generation tasks. It includes 100 samples, each consisting of three thematically related arXiv papers, and requires generating a comprehensive long abstract by reading these papers. The construction of the dataset takes into account factors such as paper length and topic distribution, and three evaluation metrics, namely length score, coherence score and quality score, are designed to comprehensively evaluate the generated long texts.

提供机构：

北京航空航天大学计算机科学与工程学院

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

LONGINOUTBENCH 数据集的构建方式是通过从 arXiv 手动收集科学论文，并设计一个长文本写作任务，即基于多篇论文生成一个全面的摘要。该数据集包含了100个样本，每个样本包含三篇主题相似的论文，总计300篇论文。论文的原始TeX源文件被下载并预处理，以去除噪声元素，同时保留TeX标记以保留结构信息。此外，该数据集还设计了一个全面的评估框架，用于评估摘要的长度、一致性和质量。

特点

LONGINOUTBENCH 数据集的特点是专注于长输入和长输出任务，填补了现有基准在长文本生成方面的空白。该数据集包含的论文数量众多，涵盖了广泛的领域，每篇论文都经过精心挑选以确保主题相似性。此外，该数据集还提供了一套全面的评估指标，包括长度评分、一致性评分和质量评分，以确保对长文本生成模型进行全面和客观的评估。

使用方法

LONGINOUTBENCH 数据集的使用方法包括两个主要部分：数据集和评估框架。数据集可以用于训练和评估长文本生成模型，而评估框架可以用于评估模型在长度、一致性和质量方面的表现。具体来说，数据集可以用于训练和评估模型在长文本理解方面的能力，而评估框架可以用于评估模型在长文本生成方面的能力。此外，LONGINOUTBENCH 数据集还可以用于研究长文本生成中存在的“迷失在中部”现象，以及如何通过检索和重述重要内容来缓解这一问题。

背景与挑战

背景概述

在自然语言处理领域，长文本生成任务面临着诸多挑战，尤其是缺乏针对长输入和长输出任务的基准数据集。为了解决这个问题，北京航空航天大学计算机科学与工程学院的研究团队提出了LONGINOUTBENCH数据集。该数据集于2025年创建，旨在为长文本生成任务提供一个评估框架，并包含了一个合成数据集。LONGINOUTBENCH数据集的核心研究问题是如何在长文本生成任务中避免“迷失在中间”的现象，即模型在处理长文本时往往忽略了输入文本中间的内容。该数据集的提出对长文本生成领域产生了重要影响，为研究人员提供了一个评估和优化长文本生成模型的基准。

当前挑战

LONGINOUTBENCH数据集面临的主要挑战包括：1) 缺乏同时具备长输入和长输出的基准数据集；2) 当输入文本长度增加时，模型容易出现“迷失在中间”的现象。为了解决这些挑战，研究团队提出了Retrieval-Augmented Long-Text Writer (RAL-WRITER)方法，通过检索和重述重要的内容，形成明确的提示，以缓解“迷失在中间”的问题。此外，LONGINOUTBENCH数据集还设计了一个全面的评估框架，包括长度评估、一致性评估和质量评估三个指标，以全面评估长文本生成模型的能力。

常用场景

经典使用场景

LONGINOUTBENCH数据集主要用于评估和优化大型语言模型（LLM）在处理长文本输入和输出任务时的能力。该数据集通过构建长文本写作任务，要求LLM阅读多篇学术论文并生成全面的摘要，从而检验LLM对长文本的理解和生成长文本的能力。该数据集还包含一个全面的评估框架，包括长度评估、一致性评估和质量评估三个维度，以全面评估生成的长文本。

衍生相关工作

LONGINOUTBENCH数据集和RAL-WRITER的提出，为长文本生成领域的研究提供了新的思路和方法。在此基础上，研究人员可以进一步探索LLM在处理长文本输入和输出任务时的能力，以及如何通过检索增强等技术提高LLM的性能。此外，LONGINOUTBENCH数据集还可以作为其他长文本生成任务的基准数据集，为相关研究提供参考。

数据集最近研究