HeuriGym

Name: HeuriGym
Creator: 康奈尔大学
Published: 2025-06-10 01:46:47
License: 暂无描述

arXiv2025-06-10 更新2025-06-12 收录

下载链接：

https://github.com/cornell-zhang/heurigym

下载链接

链接失效反馈

官方服务：

资源简介：

HeuriGym是一个为评估大型语言模型（LLMs）在组合优化问题中生成的启发式算法而设计的代理框架。数据集包含九个组合优化问题，旨在评估LLMs的多步推理能力。数据集由康奈尔大学创建，旨在解决现有评估方法在评估LLMs的推理和基于代理的问题解决能力方面的不足。HeuriGym使用明确的指标和迭代细化来评估LLMs的性能，并提供了一个开放源代码的基准套件，旨在推动LLMs在科学和工程领域更有效和现实的问题解决能力的发展。

HeuriGym is a proxy framework designed for evaluating heuristic algorithms generated by large language models (LLMs) for combinatorial optimization problems. The dataset comprises nine combinatorial optimization tasks, intended to assess the multi-step reasoning capabilities of LLMs. Developed by Cornell University, this dataset was created to address the deficiencies of existing evaluation methods in assessing LLMs’ reasoning and agent-based problem-solving abilities. HeuriGym employs explicit metrics and iterative refinement to evaluate LLM performance, and provides an open-source benchmark suite aimed at promoting more effective and practical problem-solving capabilities of LLMs in the fields of science and engineering.

提供机构：

康奈尔大学

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

HeuriGym数据集的构建基于组合优化问题的特性，采用了一种新颖的代理框架来评估大型语言模型（LLMs）生成的启发式算法。该框架通过将LLMs提出的启发式算法转化为可执行代码，并利用代码执行反馈进行迭代优化，从而实现对LLMs能力的全面评估。数据集的构建过程包括问题选择、自然语言描述规范化、实例生成和专家基准实现等多个步骤，确保了问题的多样性和评估的严谨性。

特点

HeuriGym数据集的特点在于其专注于组合优化问题，这些问题具有明确的目标和庞大的解空间，能够有效避免模型通过记忆或模式匹配来解决问题。数据集包含来自电子设计自动化、物流、生物学等多个领域的九种不同问题，每种问题都配有详细的自然语言描述和数学形式化定义。此外，数据集引入了质量-产出指数（QYI）作为统一的性能评估指标，综合考虑了解的成功率和质量，为LLMs的评估提供了全面而客观的标准。

使用方法

HeuriGym数据集的使用方法包括三个主要阶段：启发式生成、执行验证和迭代优化。用户首先将问题描述输入LLM，生成初始的启发式算法代码；随后通过代码执行验证算法的可行性和性能；最后根据验证反馈对算法进行迭代优化。数据集提供了标准化的输入输出格式和自动化评估工具，支持多轮交互和性能量化。用户还可以通过调整温度参数、增加反馈轮次等方式，探索不同设置下模型的性能表现。

背景与挑战

背景概述

HeuriGym是由康奈尔大学、哈佛大学和NVIDIA Corporation的研究团队于2025年6月推出的一个面向组合优化问题的LLM启发式算法评估框架。该数据集旨在解决当前LLM评估方法在组合优化领域的不足，通过提供一个具有明确定义目标和广阔解空间的评估环境，推动LLM在科学和工程领域的实际问题解决能力。HeuriGym允许LLM提出启发式算法，通过代码执行接收评估反馈，并迭代优化解决方案。该数据集包含来自计算机系统、物流和生物学等领域的九个组合优化问题，并引入了质量-产量指数（QYI）这一兼顾解通过率和质量的评估指标。

当前挑战

HeuriGym面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，组合优化问题通常具有NP难性质和大规模解空间，要求LLM具备创造性启发式设计、多步推理和工具使用能力。当前顶级模型如GPT-o4-mini和Gemini-2.5-Pro的QYI得分仅为0.6，远低于专家基线水平1.0，显示出LLM在真实问题解决中的局限性。在构建过程中，挑战包括：1) 设计能够抵抗记忆且反映真实世界复杂性的问题实例；2) 开发支持迭代反馈的自动化评估框架；3) 平衡问题多样性和评估深度；4) 确保问题描述的无歧义性和可执行性。此外，将评估扩展到C++等高效实现语言也面临技术挑战。

常用场景

经典使用场景

HeuriGym数据集专为评估大型语言模型（LLM）在组合优化问题中生成启发式算法的能力而设计。该数据集通过提供一个交互式代理框架，使LLM能够提出启发式算法、接收执行反馈并迭代优化解决方案。其经典使用场景包括在电子设计自动化（EDA）、物流调度和计算生物学等领域中，评估和提升LLM在复杂优化任务中的表现。

衍生相关工作

HeuriGym推动了多项相关研究的发展，包括基于LLM的自动启发式设计工具（如FunSearch和AlphaEvolve）以及新型评估框架（如NPHardEval和GraphArena）。这些工作进一步扩展了LLM在组合优化中的应用范围，并为开发更强大的问题解决代理提供了理论基础和实践指导。

数据集最近研究