LongProc

github2025-01-11 更新2025-01-12 收录

下载链接：

https://github.com/princeton-pli/LongProc

下载链接

链接失效反馈

官方服务：

资源简介：

LongProc是一个用于评估长上下文语言模型在长程序生成任务中的表现的基准数据集。它包含6个任务，每个任务通常包括三个难度级别，最大输出令牌数分别为500、2K和8K。任务包括从HTML页面提取信息并结构化到表格格式、将伪代码翻译为C++代码、在图中遍历连接两个城市的路径、跟踪故事中对象位置和信念、通过基本算术运算组合数字以达到目标数字、以及根据停留时间和直飞航班等约束创建旅行计划。

LongProc is a benchmark dataset for evaluating the performance of long-context language models on long program generation tasks. It includes 6 tasks, each typically featuring three difficulty levels with maximum output token counts of 500, 2K and 8K respectively. The tasks cover extracting information from HTML pages and structuring it into tabular format, translating pseudocode into C++ code, traversing the path connecting two cities in a graph, tracking object positions and beliefs in stories, combining numbers through basic arithmetic operations to reach a target number, and creating travel plans under constraints such as stopover durations and direct flights.

创建时间：

2025-01-08

原始信息汇总

LongProc 数据集概述

数据集简介

LongProc（Long Procedural Generation）是一个用于评估长上下文语言模型（LLMs）的基准测试，要求模型遵循指定的程序并生成结构化输出。该数据集通过长程序生成任务来测试模型的性能。

数据集任务

LongProc 包含 6 个任务，每个任务通常包含三个难度级别，输出标记的最大数量分别为 500、2K 和 8K。具体任务如下：

html_to_tsv（HTML 转 TSV）：从 HTML 页面中提取指定信息并结构化为表格格式（TSV）。
pseudo_to_code（伪代码转代码）：将逐行结构化的伪代码翻译为相应的 C++ 代码。
path_traversal（路径遍历）：在图中遍历连接两个城市的路径，每个城市只有一个出站连接。
tom_tracking（心智理论追踪）：追踪故事中关于物体放置的位置和信念，并回答相关问题。
countdown（倒计时）：通过基本算术运算将一组数字组合以达到目标数字。
travel_planning（旅行规划）：根据停留时间和直飞航班等约束条件创建旅行计划。

数据集使用

数据加载与评估

使用 load_longproc_data 函数加载数据，返回一个包含数据点的列表，每个数据点包含 input_prompt（提示字符串）、reference_output（真实程序跟踪）和 item（数据点的元信息）。
每个任务都有对应的评估函数，评估函数接收预测结果和数据点，返回指标和附加信息（如解析输出或错误描述）。

示例代码

安装必要的包：pip install -r requirements.txt。
使用 example_usage.py 中的示例代码加载数据并评估结果。示例代码使用 gpt-4o-mini API，需安装 openai 并设置 OPENAI_API_KEY。

bash python example_usage.py --dataset path_traversal_0.5k

数据集名称格式为 [task_name]_[length]

评估工具

推荐使用 HELMET 代码库进行更便捷的评估。请参考 HELMET 的 LongProc 分支（正在建设中）以使用 HELMET 评估 LongProc。

引用

数据集引用

bibtex @article{ye25longproc, title={LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation}, author={Ye, Xi and Yin, Fangcong and He, Yinghui and Zhang, Joie and Howard, Yen and Gao, Tianyu and Durrett, Greg and Chen, Danqi}, journal={arXiv preprint}, year={2025} }

HELMET 引用

bibtex @misc{yen2024helmet, title={HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly}, author={Howard Yen and Tianyu Gao and Minmin Hou and Ke Ding and Daniel Fleischer and Peter Izsak and Moshe Wasserblat and Danqi Chen}, year={2024}, eprint={2410.02694}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.02694}, }

原始数据集引用

LongProc 基准测试改编自多个现有数据集，请同时引用以下原始数据集： bibtex @article{arborist, author = {Li, Xiang and Zhou, Xiangyu and Dong, Rui and Zhang, Yihong and Wang, Xinyu}, title = {Efficient Bottom-Up Synthesis for Programs with Local Variables}, year = {2024}, issue_date = {January 2024}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, volume = {8}, number = {POPL}, url = {https://doi.org/10.1145/3632894}, doi = {10.1145/3632894}, journal = {Proc. ACM Program. Lang.}, month = jan, articleno = {52}, numpages = {29}, keywords = {Observational Equivalence, Program Synthesis, Web Automation} }

@inproceedings{spoc, author = {Kulal, Sumith and Pasupat, Panupong and Chandra, Kartik and Lee, Mina and Padon, Oded and Aiken, Alex and Liang, Percy S}, booktitle = {Proceedings of the Conference on Advances in Neural Information Processing Systems (NeurIPS)}, title = {{SPoC: Search-based Pseudocode to Code}}, }

@inproceedings{ gandhi2024stream, title={{Stream of Search (SoS): Learning to Search in Language}}, author={Kanishk Gandhi and Denise H J Lee and Gabriel Grand and Muxin Liu and Winson Cheng and Archit Sharma and Noah Goodman}, booktitle={First Conference on Language Modeling}, year={2024}, }

@article{natplan, title={{NATURAL PLAN: Benchmarking LLMs on Natural Language Planning}}, author={Zheng, Huaixiu Steven and Mishra, Swaroop and Zhang, Hugh and Chen, Xinyun and Chen, Minmin and Nova, Azade and Hou, Le and Cheng, Heng-Tze and Le, Quoc V and Chi, Ed H and others}, journal={arXiv preprint arXiv:2406.04520}, year={2024} }

联系方式

如有问题，请通过 xi.ye@princeton.edu 联系。

搜集汇总

数据集介绍

构建方式

LongProc数据集的构建旨在评估长上下文语言模型在长流程生成任务中的表现。该数据集包含六个任务，每个任务设置了三个难度级别，分别对应500、2K和8K的最大输出词数。任务设计涵盖了从HTML到TSV的转换、伪代码到C++代码的翻译、路径遍历、心智理论追踪、倒计时计算以及旅行规划等多个领域。每个任务的数据点包括输入提示、参考输出和元信息，确保模型能够生成结构化输出并遵循特定流程。

特点

LongProc数据集的特点在于其多样化的任务设计和多层次的难度设置。每个任务不仅要求模型生成结构化输出，还要求其能够处理长上下文信息。数据集的任务涵盖了从数据提取到代码生成、路径规划等多个领域，能够全面评估模型在不同场景下的表现。此外，数据集提供了详细的评估函数，能够对模型的预测结果进行精确的度量，并生成错误描述和解析输出，帮助研究者深入分析模型的表现。

使用方法

使用LongProc数据集时，首先需要通过`pip install -r requirements.txt`安装必要的依赖包。随后，可以通过`example_usage.py`文件加载数据并运行示例代码。数据集提供了`load_longproc_data`函数，用于加载任务数据并返回输入提示、参考输出和元信息。每个任务都有对应的评估函数，能够对模型的预测结果进行度量并生成详细的错误信息。此外，研究者还可以结合HELMET代码库进行更便捷的评估，进一步分析模型在长上下文任务中的表现。

背景与挑战

背景概述

LongProc数据集由普林斯顿大学的研究团队于2025年推出，旨在评估长上下文语言模型（LLMs）在长程序生成任务中的表现。该数据集通过六个任务（如HTML到TSV转换、伪代码到C++代码翻译等）来测试模型在遵循复杂程序指令并生成结构化输出方面的能力。LongProc的创建不仅填补了长上下文模型评估领域的空白，还为相关研究提供了新的基准，推动了自然语言处理领域的发展。

当前挑战

LongProc数据集面临的主要挑战包括两个方面。首先，在领域问题方面，长程序生成任务要求模型具备高度的逻辑推理能力和上下文理解能力，这对当前的语言模型提出了极高的要求。其次，在数据集构建过程中，研究人员需要设计多样化的任务和难度级别，确保数据集的广泛适用性和挑战性。此外，如何准确评估模型生成的复杂结构化输出也是一个技术难点，需要开发高效的评估方法和工具。

常用场景

经典使用场景

LongProc数据集主要用于评估长上下文语言模型（LLMs）在长程序生成任务中的表现。通过要求模型遵循特定程序并生成结构化输出，LongProc能够有效测试模型在处理复杂、多步骤任务时的能力。例如，模型需要从HTML页面中提取信息并将其转换为表格格式，或将伪代码逐行翻译为C++代码。这些任务不仅考察模型的生成能力，还验证其是否能够准确理解和执行复杂的指令。

衍生相关工作

LongProc的推出催生了一系列相关研究，特别是在长上下文语言模型的评估和优化领域。例如，HELMET框架的引入为LongProc的评估提供了更高效的工具，进一步推动了模型评估的标准化。此外，LongProc还启发了其他研究团队开发类似的长上下文任务数据集，如NATURAL PLAN和SPoC。这些工作不仅扩展了长上下文模型的应用范围，还为未来的研究提供了丰富的实验数据和理论支持。

数据集最近研究