Long-Horizon-Execution
收藏Long Horizon Execution 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 标签: 代理
数据集描述
该数据集是一个合成基准,旨在衡量大型语言模型(LLMs)在长视野上的纯执行能力。核心任务是键值字典加法。提供一个固定的上下文内字典,映射五个字母的英文单词(键)到整数值(位于dictionary.json中)。模型的目标是维持一个运行总和。在每一轮中,模型接收一个或多个键(由轮次复杂度K定义),从字典中检索它们的对应值,将它们加到运行总和中,并输出新的总和。评估的主要指标是任务长度:模型在执行准确率降至特定阈值之前能执行的步骤数。
数据集使用
test.jsonl包含可用于提示LLM的单个样本。
"input": 包含要处理的键。"values": 包含映射到相应键的值(如dictionary.json所述)。"output": 包含预期的运行总和答案。
提供的数据集配置为轮次复杂度K=1(每轮一个键)。要在更高的轮次复杂度(如K=N)上评估模型,可以通过将每N个连续轮次分组来进行后处理:
"input": 将每N个项目连接成一个逗号分隔的字符串。"output": 分组轮次的新运行总和是原始N轮组中最后一个运行总和。
数据生成
数据集设计为可通过程序生成,因此无污染。此处仅提供100个样本以便访问,但可以使用脚本(https://github.com/long-horizon-execution/measuring-execution/blob/main/generate_dataset_json.py)生成更多样本。
相关资源
- 论文: https://arxiv.org/abs/2509.09677
- GitHub: https://github.com/long-horizon-execution/measuring-execution/
引用
如果您使用该数据集,请考虑引用: bibtex @misc{ sinha2025illusiondiminishingreturnsmeasuring, title={The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs}, author={Akshit Sinha and Arvindh Arun and Shashwat Goel and Steffen Staab and Jonas Geiping}, year={2025}, eprint={2509.09677}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.09677}, }




