HeuriGym
收藏arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://github.com/cornell-zhang/heurigym
下载链接
链接失效反馈官方服务:
资源简介:
HeuriGym是一个为评估大型语言模型(LLMs)在组合优化问题中生成的启发式算法而设计的代理框架。数据集包含九个组合优化问题,旨在评估LLMs的多步推理能力。数据集由康奈尔大学创建,旨在解决现有评估方法在评估LLMs的推理和基于代理的问题解决能力方面的不足。HeuriGym使用明确的指标和迭代细化来评估LLMs的性能,并提供了一个开放源代码的基准套件,旨在推动LLMs在科学和工程领域更有效和现实的问题解决能力的发展。
HeuriGym is a proxy framework designed for evaluating heuristic algorithms generated by large language models (LLMs) for combinatorial optimization problems. The dataset comprises nine combinatorial optimization tasks, intended to assess the multi-step reasoning capabilities of LLMs. Developed by Cornell University, this dataset was created to address the deficiencies of existing evaluation methods in assessing LLMs’ reasoning and agent-based problem-solving abilities. HeuriGym employs explicit metrics and iterative refinement to evaluate LLM performance, and provides an open-source benchmark suite aimed at promoting more effective and practical problem-solving capabilities of LLMs in the fields of science and engineering.
提供机构:
康奈尔大学
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
HeuriGym数据集的构建基于组合优化问题的特性,采用了一种新颖的代理框架来评估大型语言模型(LLMs)生成的启发式算法。该框架通过将LLMs提出的启发式算法转化为可执行代码,并利用代码执行反馈进行迭代优化,从而实现对LLMs能力的全面评估。数据集的构建过程包括问题选择、自然语言描述规范化、实例生成和专家基准实现等多个步骤,确保了问题的多样性和评估的严谨性。
特点
HeuriGym数据集的特点在于其专注于组合优化问题,这些问题具有明确的目标和庞大的解空间,能够有效避免模型通过记忆或模式匹配来解决问题。数据集包含来自电子设计自动化、物流、生物学等多个领域的九种不同问题,每种问题都配有详细的自然语言描述和数学形式化定义。此外,数据集引入了质量-产出指数(QYI)作为统一的性能评估指标,综合考虑了解的成功率和质量,为LLMs的评估提供了全面而客观的标准。
使用方法
HeuriGym数据集的使用方法包括三个主要阶段:启发式生成、执行验证和迭代优化。用户首先将问题描述输入LLM,生成初始的启发式算法代码;随后通过代码执行验证算法的可行性和性能;最后根据验证反馈对算法进行迭代优化。数据集提供了标准化的输入输出格式和自动化评估工具,支持多轮交互和性能量化。用户还可以通过调整温度参数、增加反馈轮次等方式,探索不同设置下模型的性能表现。
背景与挑战
背景概述
HeuriGym是由康奈尔大学、哈佛大学和NVIDIA Corporation的研究团队于2025年6月推出的一个面向组合优化问题的LLM启发式算法评估框架。该数据集旨在解决当前LLM评估方法在组合优化领域的不足,通过提供一个具有明确定义目标和广阔解空间的评估环境,推动LLM在科学和工程领域的实际问题解决能力。HeuriGym允许LLM提出启发式算法,通过代码执行接收评估反馈,并迭代优化解决方案。该数据集包含来自计算机系统、物流和生物学等领域的九个组合优化问题,并引入了质量-产量指数(QYI)这一兼顾解通过率和质量的评估指标。
当前挑战
HeuriGym面临的挑战主要包括两个方面:领域问题挑战和构建过程挑战。在领域问题方面,组合优化问题通常具有NP难性质和大规模解空间,要求LLM具备创造性启发式设计、多步推理和工具使用能力。当前顶级模型如GPT-o4-mini和Gemini-2.5-Pro的QYI得分仅为0.6,远低于专家基线水平1.0,显示出LLM在真实问题解决中的局限性。在构建过程中,挑战包括:1) 设计能够抵抗记忆且反映真实世界复杂性的问题实例;2) 开发支持迭代反馈的自动化评估框架;3) 平衡问题多样性和评估深度;4) 确保问题描述的无歧义性和可执行性。此外,将评估扩展到C++等高效实现语言也面临技术挑战。
常用场景
经典使用场景
HeuriGym数据集专为评估大型语言模型(LLM)在组合优化问题中生成启发式算法的能力而设计。该数据集通过提供一个交互式代理框架,使LLM能够提出启发式算法、接收执行反馈并迭代优化解决方案。其经典使用场景包括在电子设计自动化(EDA)、物流调度和计算生物学等领域中,评估和提升LLM在复杂优化任务中的表现。
衍生相关工作
HeuriGym推动了多项相关研究的发展,包括基于LLM的自动启发式设计工具(如FunSearch和AlphaEvolve)以及新型评估框架(如NPHardEval和GraphArena)。这些工作进一步扩展了LLM在组合优化中的应用范围,并为开发更强大的问题解决代理提供了理论基础和实践指导。
数据集最近研究
最新研究方向
HeuriGym数据集在组合优化领域的最新研究方向主要集中在评估大型语言模型(LLMs)在解决复杂组合优化问题时的启发式算法生成能力。该数据集通过引入一个代理框架,使LLMs能够提出启发式算法、通过代码执行接收评估反馈,并迭代优化解决方案。研究重点包括工具增强推理、多步规划、指令忠实度和基于运行时反馈的迭代优化。此外,HeuriGym提出了质量-产出指数(QYI)这一统一度量标准,以量化解决方案的可行性和质量,揭示了当前最先进模型在真实问题解决场景中的局限性。该数据集的开源性质旨在指导LLMs在科学和工程领域更有效和实际的问题解决能力的发展。
相关研究论文
- 1HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization康奈尔大学 · 2025年
以上内容由遇见数据集搜集并总结生成



