LongInOutBench

github2025-03-11 更新2025-03-12 收录

下载链接：

https://github.com/OnlyAR/RAL-Writer

下载链接

链接失效反馈

官方服务：

资源简介：

LongInOutBench是我们新提出的基准测试，用于评估LLM在长输入长输出任务上的性能，使用具有挑战性的多文档摘要任务作为其核心评估范式。

LongInOutBench is a novel benchmark we proposed to evaluate the performance of Large Language Models (LLMs) on long-input and long-output tasks, adopting the challenging multi-document summarization task as its core evaluation paradigm.

创建时间：

2025-03-11

原始信息汇总

RAL-Writer LLM Agent & LongInOutBench

数据集概述

简介

RAL-Writer：一种专用的LLM（大型语言模型）代理，用于生成高质量、逻辑结构化的长篇文章（10k+ tokens），能够有效地处理和引用多个源文档。
LongInOutBench：一种新提出的用于评估LLM在长输入-长输出任务上的性能的基准，使用“多文档摘要”任务作为核心评估范式。

关键特性

RAL-Writer 代理

参考集成：无缝处理50k+词的文档
上下文理解：识别源之间的关键概念和连接
自适应生成：在10k+ tokens的输出中保持连贯性
风格控制：支持多种写作语气和格式

LongInOutBench

为长上下文LLM提供标准化评估
量化指标包括：
- 参考利用准确度
- 生成摘要的质量
- 长度可扩展性
预处理的数据集包含100个测试案例

快速开始

安装：使用pip安装依赖
基本使用：提供.env文件并使用RestateAgent类
实验：包括摘要生成、一致性评分、质量评分和长度评分

引用

如果本仓库对您的研究或工作有帮助，请考虑引用以下论文： text @misc{zhang2025lostinthemiddlelongtextgenerationsynthetic, title={Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation}, author={Junhao Zhang and Richong Zhang and Fanshuang Kong and Ziyang Miao and Yanhan Ye and Yaowei Zheng}, year={2025}, eprint={2503.06868}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.06868}, }

搜集汇总

数据集介绍

构建方式

LongInOutBench数据集的构建，旨在针对长文本输入与输出的任务，对大型语言模型（LLM）的性能进行评估。该数据集的核心评估范式为多文档摘要任务，通过合成数据集的方式，包含了100个测试案例，为评估LLM在处理长文本上下文时的表现提供了标准化评价。

使用方法

使用LongInOutBench数据集，首先需要安装相应的依赖项。通过提供一个包含OpenAI API密钥的.env文件，用户可以复制src目录下的内容到项目目录中，并导入RestateAgent类以进行基本使用。此外，数据集还提供了一系列实验管道步骤，包括摘要生成、一致性评分、质量评分和长度评分的脚本，以方便用户进行不同方面的评估。

背景与挑战

背景概述

LongInOutBench数据集是在文本生成领域的重要研究背景下创建的，旨在评估长文本输入输出任务中大型语言模型（LLM）的性能。该数据集由Junhao Zhang、Richong Zhang等研究人员于2025年提出，并在论文《Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation》中进行了详细的介绍。该数据集的核心研究问题是长文本生成中的信息丢失问题，对于提升长文本生成的质量具有重要的研究价值，对相关领域产生了显著的影响。

当前挑战

数据集构建过程中面临的挑战主要包括：1) 如何准确评估长文本生成任务中LLM的参考利用准确性和生成摘要的质量；2) 如何保证生成文本的连贯性和长度可扩展性；3) 构建具有标准化评估指标和100个测试案例的预处理数据集。此外，数据集在解决多文档摘要任务中的挑战，也体现在如何处理大量文本输入，并生成高质量的长文本输出。

常用场景

经典使用场景

LongInOutBench 数据集专为评估长文本生成中LLM（Large Language Models）的性能而设计，其核心评估范式为具有挑战性的多文档摘要任务。该数据集提供了一个标准化的评估平台，使得研究人员能够基于长输入-长输出任务对LLM的性能进行量化分析，从而优化和提升模型在处理长文本时的连贯性和准确性。

解决学术问题

该数据集解决了长文本生成中模型面临的'迷失在中途'的问题，即生成过程中模型难以维持长文本的连贯性和准确性。通过提供100个预处理的数据测试案例，LongInOutBench 使得研究者能够针对长文本生成中的参考利用准确性、生成的摘要质量以及长度可扩展性等关键指标进行评估，从而推动长文本生成技术的进步。

实际应用

在实际应用中，LongInOutBench 数据集可用于指导大型语言模型在处理如文献综述、报告撰写等需要综合大量信息并生成长篇输出的任务，有助于提高自动化文本生成系统的质量和实用性。

数据集最近研究