InnoGym (iBench)
收藏arXiv2025-12-02 更新2025-12-03 收录
下载链接:
https://github.com/zjunlp/igym
下载链接
链接失效反馈官方服务:
资源简介:
InnoGym是由浙江大学与蚂蚁集团联合实验室等机构构建的首个专注于评估AI智能体创新潜力的基准数据集。该数据集名为iBench,共包含18个经过精心筛选和标准化的可改进任务,这些任务源自现实世界的工程与科学领域,如优化挑战和NP难问题。数据集的构建过程经历了多阶段过滤与增强,包括资源可获取性检查、评估器验证、解决方案收集以及环境标准化,以确保其公平性与可复现性。该数据集旨在系统性地衡量智能体在方法论原创性与性能突破方面的综合能力,为解决现有基准仅关注答案正确性而忽视创新过程的问题提供了关键工具。
InnoGym is the first benchmark dataset dedicated to evaluating the innovation potential of AI Agents, constructed by joint laboratories of Zhejiang University, Ant Group and other affiliated institutions. Named iBench, this dataset comprises 18 carefully screened and standardized improvable tasks sourced from real-world engineering and scientific domains, such as optimization challenges and NP-hard problems. The development of this dataset underwent multi-stage filtering and enhancement procedures, including resource accessibility checks, evaluator validation, solution collection and environmental standardization, to ensure its fairness and reproducibility. This dataset aims to systematically measure the comprehensive capabilities of AI Agents in terms of methodological originality and performance breakthroughs, providing a critical tool to address the limitation that existing benchmarks only focus on answer correctness while neglecting the innovation process.
提供机构:
浙江大学、蚂蚁集团、新加坡国立大学
创建时间:
2025-12-02
搜集汇总
数据集介绍

构建方式
InnoGym(iBench)的构建遵循严谨的多阶段标准化流程,旨在系统评估AI智能体的创新潜力。该流程始于从2018年至2024年间顶级学术与工业竞赛(如NeurIPS、KDD Cup、ROADEF)以及经典NP难问题中收集197项初始任务。随后通过两阶段筛选:第一阶段依据资源可及性与计算可行性进行过滤,确保数据集、评估器、参考解决方案等关键要素完备;第二阶段则聚焦于评估器质量验证与领域平衡性调整,最终遴选出18项高质量“可改进任务”。每个任务均经过增强与标准化处理,包括任务规范重写、环境依赖封装、验证器构建、解决方案收集以及评估器归一化,确保其在统一框架下具备可复现性与公平性。数据分割遵循开发集与评估集分离原则,所有资源均明确划分为智能体可见与不可见部分,从而为创新能力的量化评估奠定坚实基础。
特点
InnoGym的核心特点在于其首创的双维度创新评估框架,突破了传统基准仅关注答案正确性的局限。该框架将每个任务形式化为四元组(问题实例、解空间、性能度量、解间差异度量),并引入性能增益与新颖性两项互补指标:性能增益衡量解决方案相对于已知最优基线的改进程度,而新颖性则捕捉新解决方案与已有方法在方法论层面的差异。基准涵盖18项精心筛选的真实世界工程与科学领域任务,这些任务均属于“可改进问题”范畴,即在性能与方法论上均存在明确提升空间。此外,基准通过严格的资源过滤、评估器验证与解决方案收集流程实现标准化,确保了评估的可靠性与跨任务可比性。InnoGym还配套提供了统一的智能体执行环境iGym,支持长时程问题求解与稳健的工具使用,为系统性创新评估提供了完整生态。
使用方法
使用InnoGym进行评估需遵循其结构化的三阶段流程。首先,智能体系统仅基于可见数据(包括任务描述、示例、开发集及依赖环境)生成解决方案产物。随后进入性能评估阶段:验证器会检查提交物的格式合法性与执行可行性,若通过则调用评估器计算绝对性能分数,进而依据已知最优基线得分计算性能增益。最后进行新颖性评估:通过基于大模型的提取提示将解决方案转化为结构化特征表示,并与已知解决方案集进行距离比较,使用智能体作为评判者的方法沿六个维度量化方法论差异,最终得出新颖性分数。整个流程在iGym统一环境中执行,确保工具调用、并发处理与状态恢复的一致性。用户可通过对比性能增益与新颖性分数,综合分析智能体在突破现有性能边界与引入原创方法两方面的创新能力,从而揭示创造力与有效性之间的关键差距。
背景与挑战
背景概述
在人工智能领域,大型语言模型与智能体在代码生成、数学推理及科学发现等方面已取得显著进展,然而现有基准测试多聚焦于答案的正确性,忽视了解决方案背后方法的多样性。真正的创新不仅依赖于产出正确答案,更在于方法的原创性。为此,浙江大学与蚂蚁集团联合实验室于2025年推出了InnoGym(iBench)数据集,这是首个系统评估AI智能体创新潜力的基准测试框架。该数据集通过引入性能增益与新颖性两个互补指标,重新定义了创新评估的维度,涵盖了从现实工程与科学领域中精心筛选的18项可改进任务,旨在推动AI智能体在复杂问题解决中实现方法论突破与性能提升,对促进人工智能在科学研究与工程应用中的创造性发展具有深远影响。
当前挑战
InnoGym数据集致力于解决评估AI智能体在解决可改进任务时创新能力的核心挑战,其首要难题在于如何超越传统仅关注正确性的评估范式,转而量化解决方案的方法论新颖性与性能增益。这一过程需克服多维度评估的复杂性,包括设计可靠的距离函数以精确度量不同解决方案之间的方法论差异,并确保评估结果在不同领域任务间具有可比性。在数据集构建过程中,研究人员面临了严峻的挑战,包括从大量公开竞赛与经典问题中筛选并标准化高质量任务,确保计算资源的可负担性与评估器的可执行性,同时需为每项任务收集并验证已知解决方案,以建立稳健的参考基准。此外,构建统一的智能体执行环境以支持长时程、可复现的评估,并处理异构任务依赖与工具集成,亦是保障基准测试公平性与实用性的关键难点。
常用场景
经典使用场景
在人工智能代理的评估领域,InnoGym(iBench)作为首个专注于衡量创新潜力的基准测试,其经典使用场景在于系统化评估代理在复杂工程与科学问题上的方法论原创性。该数据集通过精心筛选的18项可改进任务,如ROADEF挑战和二维装箱问题,构建了一个标准化的测试环境,使研究者能够量化代理解决方案相对于已知最优方法的性能增益与新颖性差异。这一场景不仅超越了传统仅关注答案正确性的评估范式,更深入揭示了代理在解决开放性问题时的方法论创造力,为代理的创新性能力提供了多维度的衡量标准。
解决学术问题
InnoGym核心解决了人工智能代理评估中忽视方法论多样性的关键学术问题。传统基准如MATH或SWE-Bench仅验证答案正确性,无法区分相同正确答案背后的不同解决路径。该数据集通过形式化创新评估框架,引入性能增益与新颖性双指标,首次将管理学家德鲁克“创造新绩效维度的变革”理念量化应用于AI评估。这使研究者能够系统分析代理在复杂任务中实现突破性创新、性能创新或概念创新的能力,填补了当前评估体系在衡量方法论原创性方面的理论空白,推动了AI创新评估从结果导向向过程导向的范式转变。
衍生相关工作
InnoGym的发布催生了多个聚焦AI创新评估的衍生研究方向。在理论层面,其双指标评估框架启发了对创新任务分类的进一步细化,将可改进问题与已解决问题、探索性问题进行形式化区分。在基准构建方面,该数据集的方法论影响了后续如InnovatorBench等专注于机器学习研究创新的评估工具开发。同时,其揭示的“新颖性与鲁棒性脱节”现象,促进了如AlphaEvolve等专注于算法发现的编码代理系统的改进,推动研究社区关注如何平衡代理的创造性探索与解决方案的稳健性,为下一代科学发现代理的设计提供了重要参考依据。
以上内容由遇见数据集搜集并总结生成



