Long-Horizon-Execution

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个专为测量大型语言模型在长期执行能力上的纯执行能力而设计的合成基准数据集。数据集的核心任务是键值字典累加。在一个固定的、上下文中的字典中，将五个字母的英文单词（键）映射到整数值。模型的目的是维护一个运行总和。在每一轮中，它会接收到一个或多个键（由轮次复杂性K定义），从字典中检索相应的值，将它们添加到运行总和中，并输出新的总和。主要的评估指标是任务长度，即模型的准确度降至某个阈值以下之前可以执行的步骤数。数据集设计为可编程生成，因此无污染。为了方便访问，这里只提供了100个样本，但可以使用提供的脚本来生成更多样本。

创建时间：

2025-09-11

原始信息汇总

Long Horizon Execution 数据集概述

数据集基本信息

许可证: Apache-2.0
任务类别: 文本生成
标签: 代理

数据集描述

该数据集是一个合成基准，旨在衡量大型语言模型（LLMs）在长视野上的纯执行能力。核心任务是键值字典加法。提供一个固定的上下文内字典，映射五个字母的英文单词（键）到整数值（位于dictionary.json中）。模型的目标是维持一个运行总和。在每一轮中，模型接收一个或多个键（由轮次复杂度K定义），从字典中检索它们的对应值，将它们加到运行总和中，并输出新的总和。评估的主要指标是任务长度：模型在执行准确率降至特定阈值之前能执行的步骤数。

数据集使用

test.jsonl包含可用于提示LLM的单个样本。

"input": 包含要处理的键。
"values": 包含映射到相应键的值（如dictionary.json所述）。
"output": 包含预期的运行总和答案。

提供的数据集配置为轮次复杂度K=1（每轮一个键）。要在更高的轮次复杂度（如K=N）上评估模型，可以通过将每N个连续轮次分组来进行后处理：

"input": 将每N个项目连接成一个逗号分隔的字符串。
"output": 分组轮次的新运行总和是原始N轮组中最后一个运行总和。

数据生成

数据集设计为可通过程序生成，因此无污染。此处仅提供100个样本以便访问，但可以使用脚本（https://github.com/long-horizon-execution/measuring-execution/blob/main/generate_dataset_json.py）生成更多样本。

引用

如果您使用该数据集，请考虑引用： bibtex @misc{ sinha2025illusiondiminishingreturnsmeasuring, title={The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs}, author={Akshit Sinha and Arvindh Arun and Shashwat Goel and Steffen Staab and Jonas Geiping}, year={2025}, eprint={2509.09677}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.09677}, }

搜集汇总

数据集介绍

构建方式

在大型语言模型长程执行能力评估领域，Long-Horizon-Execution数据集采用程序化生成方法构建，确保了数据的纯净性与可扩展性。其核心基于固定的键值字典映射机制，通过自动化脚本动态生成五字母英文单词与整数值的对应关系，并以此为基础构造连续加法任务序列。该生成策略不仅有效避免了数据污染问题，还支持根据研究需求灵活调整任务复杂度与规模。

特点

该数据集最显著的特征在于其专注于衡量模型在长序列任务中的纯执行能力，通过键值检索与累加操作构建标准化评估框架。每个任务回合包含明确的输入键序列、对应数值及预期累加结果，形成闭环验证机制。数据集提供多复杂度配置支持，研究者可通过调整每回合处理键的数量（K值）来模拟不同难度的执行场景，为模型的长程逻辑保持能力提供多维度的量化指标。

使用方法

使用该数据集时，研究者可直接加载test.jsonl文件中的样本数据，其中每个样本包含输入键序列、对应数值及预期输出结果。评估过程中，模型需根据输入键自动检索字典值并执行累加运算，通过对比模型输出与标准答案计算执行准确率。对于高阶复杂度评估，可通过后处理程序将连续N个回合合并为单一复合任务，从而扩展评估维度和任务挑战性。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务中的广泛应用，其长程执行能力的系统性评估成为自然语言处理领域的关键研究课题。Long-Horizon-Execution数据集由Akshit Sinha等研究者于2025年创建，旨在通过键值字典累加任务量化模型在长序列操作中的执行稳定性。该数据集通过程序化生成方式构建，有效避免了数据污染问题，为评估模型在持续计算任务中的表现提供了标准化基准，对推动语言模型推理能力的可解释性研究具有重要意义。

当前挑战

该数据集主要解决长序列任务执行中的数值计算一致性挑战，要求模型在数百步操作中保持精确的累加计算，这对模型的算术推理能力和状态维护机制提出了极高要求。构建过程中的核心挑战在于设计可扩展的合成数据生成算法，既要保证键值映射的随机性以避免记忆效应，又需通过程序化生成实现任意长度序列的灵活构建，同时确保评估指标能准确捕捉模型执行能力的衰减拐点。

常用场景

经典使用场景

在大型语言模型的长程推理能力评估领域，该数据集通过键值对字典累加任务构建标准化测试框架。研究者将固定字典与连续输入键序列组合，要求模型逐步检索数值并维护运行总和，以此衡量模型在长序列任务中的数值计算与状态维持能力。该设计有效隔离了知识检索与逻辑推理的干扰，纯粹检验模型的执行一致性。

实际应用

该基准的实际应用延伸至自动驾驶系统决策链验证、金融交易流水核对等需要长序列精确执行的工业场景。通过模拟多步操作中的状态传递过程，可为医疗诊断辅助系统、工业流程控制软件等高风险领域提供可靠性测试模板，确保AI系统在连续决策中保持数值计算的精确性与状态管理的稳定性。

衍生相关工作

该数据集催生了多项关于语言模型执行衰减曲线的研究，包括哈佛大学团队开发的动态上下文窗口优化算法，以及Meta研究院提出的状态缓存机制。后续研究进一步拓展到多模态长程任务执行基准构建，催生了ICLR 2026最佳论文《Chain-of-Execution》提出的分层执行验证框架，推动了执行可靠性理论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集