five

LONGINOUTBENCH

收藏
arXiv2025-03-10 更新2025-03-12 收录
下载链接:
https://github.com/OnlyAR/RAL-Writer
下载链接
链接失效反馈
官方服务:
资源简介:
LONGINOUTBENCH是由北京航空航天大学计算机科学与工程学院创建的一个数据集,旨在评估长文本理解和生成任务。该数据集包含100个样本,每个样本由三篇主题相关的arXiv论文组成,通过阅读这些论文生成一篇综合性的长摘要。数据集的构建考虑了论文的长度、主题分布等因素,并设计了长度评分、一致性评分和品质评分三个评价指标,以全面评估生成的长文本。
提供机构:
北京航空航天大学计算机科学与工程学院
创建时间:
2025-03-10
搜集汇总
数据集介绍
main_image_url
构建方式
LONGINOUTBENCH 数据集的构建方式是通过从 arXiv 手动收集科学论文,并设计一个长文本写作任务,即基于多篇论文生成一个全面的摘要。该数据集包含了100个样本,每个样本包含三篇主题相似的论文,总计300篇论文。论文的原始TeX源文件被下载并预处理,以去除噪声元素,同时保留TeX标记以保留结构信息。此外,该数据集还设计了一个全面的评估框架,用于评估摘要的长度、一致性和质量。
特点
LONGINOUTBENCH 数据集的特点是专注于长输入和长输出任务,填补了现有基准在长文本生成方面的空白。该数据集包含的论文数量众多,涵盖了广泛的领域,每篇论文都经过精心挑选以确保主题相似性。此外,该数据集还提供了一套全面的评估指标,包括长度评分、一致性评分和质量评分,以确保对长文本生成模型进行全面和客观的评估。
使用方法
LONGINOUTBENCH 数据集的使用方法包括两个主要部分:数据集和评估框架。数据集可以用于训练和评估长文本生成模型,而评估框架可以用于评估模型在长度、一致性和质量方面的表现。具体来说,数据集可以用于训练和评估模型在长文本理解方面的能力,而评估框架可以用于评估模型在长文本生成方面的能力。此外,LONGINOUTBENCH 数据集还可以用于研究长文本生成中存在的“迷失在中部”现象,以及如何通过检索和重述重要内容来缓解这一问题。
背景与挑战
背景概述
在自然语言处理领域,长文本生成任务面临着诸多挑战,尤其是缺乏针对长输入和长输出任务的基准数据集。为了解决这个问题,北京航空航天大学计算机科学与工程学院的研究团队提出了LONGINOUTBENCH数据集。该数据集于2025年创建,旨在为长文本生成任务提供一个评估框架,并包含了一个合成数据集。LONGINOUTBENCH数据集的核心研究问题是如何在长文本生成任务中避免“迷失在中间”的现象,即模型在处理长文本时往往忽略了输入文本中间的内容。该数据集的提出对长文本生成领域产生了重要影响,为研究人员提供了一个评估和优化长文本生成模型的基准。
当前挑战
LONGINOUTBENCH数据集面临的主要挑战包括:1) 缺乏同时具备长输入和长输出的基准数据集;2) 当输入文本长度增加时,模型容易出现“迷失在中间”的现象。为了解决这些挑战,研究团队提出了Retrieval-Augmented Long-Text Writer (RAL-WRITER)方法,通过检索和重述重要的内容,形成明确的提示,以缓解“迷失在中间”的问题。此外,LONGINOUTBENCH数据集还设计了一个全面的评估框架,包括长度评估、一致性评估和质量评估三个指标,以全面评估长文本生成模型的能力。
常用场景
经典使用场景
LONGINOUTBENCH数据集主要用于评估和优化大型语言模型(LLM)在处理长文本输入和输出任务时的能力。该数据集通过构建长文本写作任务,要求LLM阅读多篇学术论文并生成全面的摘要,从而检验LLM对长文本的理解和生成长文本的能力。该数据集还包含一个全面的评估框架,包括长度评估、一致性评估和质量评估三个维度,以全面评估生成的长文本。
衍生相关工作
LONGINOUTBENCH数据集和RAL-WRITER的提出,为长文本生成领域的研究提供了新的思路和方法。在此基础上,研究人员可以进一步探索LLM在处理长文本输入和输出任务时的能力,以及如何通过检索增强等技术提高LLM的性能。此外,LONGINOUTBENCH数据集还可以作为其他长文本生成任务的基准数据集,为相关研究提供参考。
数据集最近研究
最新研究方向
LONGINOUTBENCH数据集聚焦于解决长文本生成任务中存在的“丢失中间信息”现象。该数据集包含了长输入和长输出的文本数据,并设计了一个全面的评估框架,用于评估长文本生成模型的能力。研究团队还提出了RAL-WRITER模型,该模型通过检索和重述重要但可能丢失的内容,来缓解“丢失中间信息”问题。实验结果表明,RAL-WRITER在LONGINOUTBENCH数据集上表现出了有效性。LONGINOUTBENCH数据集和RAL-WRITER模型为长文本生成任务的研究提供了新的思路和方法。
相关研究论文
  • 1
    Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation北京航空航天大学计算机科学与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作