five

LongInOutBench

收藏
github2025-03-11 更新2025-03-12 收录
下载链接:
https://github.com/OnlyAR/RAL-Writer
下载链接
链接失效反馈
官方服务:
资源简介:
LongInOutBench是我们新提出的基准测试,用于评估LLM在长输入长输出任务上的性能,使用具有挑战性的多文档摘要任务作为其核心评估范式。

LongInOutBench is a novel benchmark we proposed to evaluate the performance of Large Language Models (LLMs) on long-input and long-output tasks, adopting the challenging multi-document summarization task as its core evaluation paradigm.
创建时间:
2025-03-11
原始信息汇总

RAL-Writer LLM Agent & LongInOutBench

数据集概述

简介

  • RAL-Writer:一种专用的LLM(大型语言模型)代理,用于生成高质量、逻辑结构化的长篇文章(10k+ tokens),能够有效地处理和引用多个源文档。
  • LongInOutBench:一种新提出的用于评估LLM在长输入-长输出任务上的性能的基准,使用“多文档摘要”任务作为核心评估范式。

关键特性

RAL-Writer 代理

  • 参考集成:无缝处理50k+词的文档
  • 上下文理解:识别源之间的关键概念和连接
  • 自适应生成:在10k+ tokens的输出中保持连贯性
  • 风格控制:支持多种写作语气和格式

LongInOutBench

  • 为长上下文LLM提供标准化评估
  • 量化指标包括:
    • 参考利用准确度
    • 生成摘要的质量
    • 长度可扩展性
  • 预处理的数据集包含100个测试案例

快速开始

  • 安装:使用pip安装依赖
  • 基本使用:提供.env文件并使用RestateAgent类
  • 实验:包括摘要生成、一致性评分、质量评分和长度评分

引用

  • 如果本仓库对您的研究或工作有帮助,请考虑引用以下论文: text @misc{zhang2025lostinthemiddlelongtextgenerationsynthetic, title={Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation}, author={Junhao Zhang and Richong Zhang and Fanshuang Kong and Ziyang Miao and Yanhan Ye and Yaowei Zheng}, year={2025}, eprint={2503.06868}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.06868}, }
搜集汇总
数据集介绍
main_image_url
构建方式
LongInOutBench数据集的构建,旨在针对长文本输入与输出的任务,对大型语言模型(LLM)的性能进行评估。该数据集的核心评估范式为多文档摘要任务,通过合成数据集的方式,包含了100个测试案例,为评估LLM在处理长文本上下文时的表现提供了标准化评价。
使用方法
使用LongInOutBench数据集,首先需要安装相应的依赖项。通过提供一个包含OpenAI API密钥的.env文件,用户可以复制src目录下的内容到项目目录中,并导入RestateAgent类以进行基本使用。此外,数据集还提供了一系列实验管道步骤,包括摘要生成、一致性评分、质量评分和长度评分的脚本,以方便用户进行不同方面的评估。
背景与挑战
背景概述
LongInOutBench数据集是在文本生成领域的重要研究背景下创建的,旨在评估长文本输入输出任务中大型语言模型(LLM)的性能。该数据集由Junhao Zhang、Richong Zhang等研究人员于2025年提出,并在论文《Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation》中进行了详细的介绍。该数据集的核心研究问题是长文本生成中的信息丢失问题,对于提升长文本生成的质量具有重要的研究价值,对相关领域产生了显著的影响。
当前挑战
数据集构建过程中面临的挑战主要包括:1) 如何准确评估长文本生成任务中LLM的参考利用准确性和生成摘要的质量;2) 如何保证生成文本的连贯性和长度可扩展性;3) 构建具有标准化评估指标和100个测试案例的预处理数据集。此外,数据集在解决多文档摘要任务中的挑战,也体现在如何处理大量文本输入,并生成高质量的长文本输出。
常用场景
经典使用场景
LongInOutBench 数据集专为评估长文本生成中LLM(Large Language Models)的性能而设计,其核心评估范式为具有挑战性的多文档摘要任务。该数据集提供了一个标准化的评估平台,使得研究人员能够基于长输入-长输出任务对LLM的性能进行量化分析,从而优化和提升模型在处理长文本时的连贯性和准确性。
解决学术问题
该数据集解决了长文本生成中模型面临的'迷失在中途'的问题,即生成过程中模型难以维持长文本的连贯性和准确性。通过提供100个预处理的数据测试案例,LongInOutBench 使得研究者能够针对长文本生成中的参考利用准确性、生成的摘要质量以及长度可扩展性等关键指标进行评估,从而推动长文本生成技术的进步。
实际应用
在实际应用中,LongInOutBench 数据集可用于指导大型语言模型在处理如文献综述、报告撰写等需要综合大量信息并生成长篇输出的任务,有助于提高自动化文本生成系统的质量和实用性。
数据集最近研究
最新研究方向
LongInOutBench数据集针对长文本生成任务中的'迷失于中间'问题,提出了合成数据集、评估框架和缓解策略。该数据集作为长输入-长输出任务的性能评估新基准,采用多文档摘要任务为核心评估范式。近期研究聚焦于如何提高大型语言模型在处理长篇文档时的参考利用准确性、生成摘要的质量以及长度可扩展性,旨在推动长文本生成领域的发展,具有重要的实践与理论意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作