LONGPROC

Name: LONGPROC
Creator: 普林斯顿语言与智能研究所, 德克萨斯大学奥斯汀分校
Published: 2025-01-10 02:16:55
License: 暂无描述

arXiv2025-01-10 更新2025-01-11 收录

下载链接：

https://princeton-pli.github.io/LongProc

下载链接

链接失效反馈

官方服务：

资源简介：

LONGPROC是由普林斯顿语言与智能研究所和德克萨斯大学奥斯汀分校联合创建的一个基准数据集，旨在评估长上下文语言模型在长程序生成任务中的表现。该数据集包含六个不同的任务，涵盖了从HTML页面提取结构化信息到生成复杂旅行计划等多种任务。每个任务都要求模型遵循详细的程序指令，生成结构化、长形式的输出（最多8K个Token）。数据集的任务设计基于确定性程序，生成的结构化输出使得基于规则的评估成为可能。LONGPROC的应用领域主要集中在长上下文推理、多步推理和复杂搜索程序等实际应用场景，如网页代理和现实世界规划任务。通过该数据集，研究团队揭示了当前长上下文语言模型在长程序生成任务中的关键局限性，并为未来的研究提供了改进方向。

LONGPROC is a benchmark dataset jointly developed by the Princeton Language and Intelligence Institute and The University of Texas at Austin, designed to evaluate the performance of long-context language models on long program generation tasks. This dataset comprises six distinct tasks, covering a broad spectrum of scenarios ranging from extracting structured information from HTML pages to generating complex travel plans. Each task requires the model to adhere to detailed procedural instructions and produce structured, long-form outputs with a maximum length of 8K Tokens. The tasks in LONGPROC are designed based on deterministic programs, and the generated structured outputs enable rule-based evaluation. The primary application scenarios of LONGPROC focus on real-world use cases such as long-context reasoning, multi-step reasoning, complex search procedures, web agents, and real-world planning tasks. Through this dataset, the research team uncovered the key limitations of current long-context language models in long program generation tasks, and provided valuable improvement directions for future research.

提供机构：

普林斯顿语言与智能研究所, 德克萨斯大学奥斯汀分校

创建时间：

2025-01-10

原始信息汇总

LongProc 数据集概述

数据集简介

名称: LongProc (Long Procedural Generation)
目的: 评估长上下文语言模型（LCLMs）在长过程生成任务中的表现。
特点: 数据集包含六个多样化的过程生成任务，要求模型在遵循详细指令的同时，整合高度分散的信息并生成长格式输出（最多8K个标记）。

数据集任务

任务类型:
- 从HTML页面提取结构化信息并转换为TSV格式
- 执行复杂的搜索过程以创建旅行计划
- 其他需要长程推理的任务
任务难度: 分为三个难度级别，输出标记数分别为500、2K和8K。

数据集评估

评估模型: 17个长上下文语言模型，包括前沿的闭源模型和开源模型。
评估结果:
- 所有模型在输出长度增加时表现下降。
- 开源模型通常在2K标记任务上表现不佳。
- 闭源模型（如GPT-4o）在8K标记任务上表现显著下降。
- 模型在长格式生成中难以保持长程一致性。

数据集贡献者

主要作者:
- Xi Ye (普林斯顿大学)
- Fangcong Yin (德克萨斯大学奥斯汀分校)
- Yinghui He (普林斯顿大学)
- Joie Zhang (普林斯顿大学)
- Howard Yen (普林斯顿大学)
- Tianyu Gao (普林斯顿大学)
- Greg Durrett (德克萨斯大学奥斯汀分校)
- Danqi Chen (普林斯顿大学)

数据集资源

论文: arXiv:2501.05414
代码: GitHub
数据: GitHub

引用

bibtex @article{ye25longproc, title={LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation}, author={Ye, Xi and Yin, Fangcong and He, Yinghui and Zhang, Joie and Howard, Yen and Gao, Tianyu and Durrett, Greg and Chen, Danqi}, journal={arXiv preprint}, year={2025} }

搜集汇总

数据集介绍

构建方式

LONGPROC数据集的构建基于六个多样化的程序生成任务，旨在评估长上下文语言模型（LCLMs）在长文本生成和信息整合方面的能力。这些任务包括从HTML页面提取结构化信息、生成旅行计划、以及跟踪故事中的对象位置等。每个任务都遵循确定性的程序，生成的结构化输出使得基于规则的评估成为可能。数据集的构建过程包括从现有数据源（如Arborist数据集）中提取和清理数据，并根据输出长度将任务分为三个难度级别（500、2K和8K tokens）。

使用方法

LONGPROC数据集的使用方法主要包括对长上下文语言模型的评估和性能分析。用户可以通过该数据集测试模型在不同任务和难度级别下的表现，特别是模型在长文本生成、信息整合和复杂推理方面的能力。数据集提供了详细的评估提示和输出格式要求，确保评估过程的标准化和可重复性。此外，用户还可以通过分析模型在不同任务中的表现，识别模型在长上下文处理中的局限性，并为未来的模型改进提供方向。

背景与挑战

背景概述

LONGPROC数据集由普林斯顿语言与智能研究所（Princeton Language and Intelligence）和德克萨斯大学奥斯汀分校的研究团队于2025年推出，旨在评估长上下文语言模型（LCLMs）在长流程生成任务中的表现。该数据集包含六个多样化的任务，如从HTML页面提取结构化信息、执行复杂搜索程序以创建旅行计划等，要求模型能够整合高度分散的信息并生成长格式输出（最多8K个token）。LONGPROC的推出填补了现有基准测试的空白，特别是在长上下文生成任务中，现有基准大多仅关注短输出任务。该数据集通过确定性的流程和结构化输出，提供了可靠的基于规则的评估方法，推动了长上下文语言模型的研究与应用。

当前挑战

LONGPROC数据集面临的挑战主要体现在两个方面：首先，长上下文语言模型在处理长流程生成任务时，难以保持长距离的连贯性，尤其是在生成8K token的长格式输出时，模型的性能显著下降。其次，数据集的构建过程中，如何设计多样化的任务以涵盖不同的信息访问、推理和搜索执行能力，同时确保任务的确定性和结构化输出，也是一个重要的挑战。此外，现有模型在长上下文生成任务中的表现与人类能力之间存在显著差距，尤其是在需要多步推理和复杂搜索的任务中，模型的性能远未达到预期。这些挑战为未来的研究提供了广阔的空间。

常用场景

经典使用场景

LONGPROC数据集主要用于评估长上下文语言模型（LCLMs）在长过程生成任务中的表现。该数据集包含六种不同的任务，如从HTML页面提取结构化信息并转换为TSV格式、执行复杂的搜索过程以创建旅行计划等。这些任务要求模型能够遵循详细的过程指令，整合分散的信息，并生成结构化的长文本输出（最多8K个token）。通过这些任务，LONGPROC能够有效测试模型在处理长上下文时的信息整合、推理和生成能力。

解决学术问题

LONGPROC数据集解决了当前长上下文语言模型评估中的一些关键问题。现有的基准测试大多集中在长上下文召回任务上，要求模型在处理大量无关token的同时生成简短的响应。然而，这些测试无法充分评估模型在实际应用中处理分散信息和生成长文本的能力。LONGPROC通过引入长过程生成任务，填补了这一空白，提供了对模型在复杂任务中表现的综合评估。此外，由于这些任务遵循确定性过程并生成结构化输出，LONGPROC还支持基于规则的可靠评估，避免了传统评估方法中的主观性。

实际应用

LONGPROC数据集的实际应用场景广泛，尤其是在需要处理长上下文和生成长文本的任务中。例如，在网页代理中，模型可能需要从多个页面中整合信息并生成详细的轨迹；在旅行规划中，模型需要根据多个约束条件生成复杂的行程安排。此外，LONGPROC还可以用于评估模型在生成结构化输出（如JSON、TSV等）方面的能力，这在许多实际应用中（如数据提取、报告生成等）具有重要意义。

数据集最近研究