EnConda-Bench

Name: EnConda-Bench
Creator: 腾讯优图实验室
Published: 2025-10-30 00:59:07
License: 暂无描述

arXiv2025-10-30 更新2025-11-04 收录

下载链接：

https://github.com/TencentYoutuResearch/EnConda-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

EnConda-Bench是一个针对软件工程中环境配置任务的基准数据集。它旨在评估基于大型语言模型(LLM)的智能体在环境配置过程中的规划、感知、反馈和执行能力。数据集包含经过筛选的高质量GitHub仓库，通过在README文件中注入常见错误来模拟真实的环境配置问题。评估方法包括错误诊断和可执行性测试，以评估智能体在环境配置过程中的每一步的能力。该数据集的创建旨在为软件工程领域的研究人员提供大规模、高质量的训练数据，以推动环境配置任务中智能体能力的提升。

提供机构：

腾讯优图实验室

创建时间：

2025-10-30

搜集汇总

数据集介绍

构建方式

在软件工程领域，环境配置的自动化评估面临数据稀缺的挑战。EnConda-Bench通过自动化流程构建高质量数据集，首先依据严格标准筛选GitHub高星仓库，确保原始README的正确性；随后利用Claude-4和Gemini-2.5等先进大模型向README中注入六类典型配置错误，涵盖依赖安装、命令语法及版本兼容性等维度；最后通过Docker环境执行验证与GPT-4.1辅助过滤，形成包含4,201个任务实例的基准数据集，实现了规模化与质量控制的平衡。

使用方法

研究者在应用该数据集时，需遵循标准化评估流程。首先将智能体置于包含错误README的Docker环境中执行配置任务，通过解析其生成的轨迹数据提取错误类型判断、修复建议及最终Shell脚本。评估阶段采用双重验证机制：一方面通过自动化脚本检验环境构建成功率，另一方面利用预标注的黄金答案JSON文件比对过程诊断准确性。数据集配套的合成数据框架还可扩展用于生成训练轨迹，支持智能体在反馈交互与错误修复方面的持续优化。

背景与挑战

背景概述

随着大语言模型在软件工程领域的广泛应用，环境配置任务逐渐成为制约智能代理性能的关键瓶颈。2025年由腾讯优图实验室联合多所高校发布的EnConda-Bench数据集，聚焦于软件工程代理在环境配置过程中的轨迹评估。该数据集通过自动注入六类典型配置错误，构建了包含4201个任务实例的评估框架，首次实现了对代理规划能力、错误感知、反馈修复与执行动作的全流程量化分析。其创新性的过程级评估机制为软件工程代理的认知能力研究提供了可解释性支撑，推动了智能开发工具从结果导向到过程优化的范式转变。

当前挑战

环境配置领域长期面临两大核心挑战：传统基准测试仅关注构建成功率等终端指标，难以定位代理在依赖安装、版本兼容等细分环节的能力缺陷；高质量数据构建存在天然壁垒，可靠代码库稀缺且人工标注成本高昂。EnConda-Bench通过自动化错误注入技术突破数据规模限制时，需确保合成错误与真实场景的语义一致性，同时维持多轮交互中错误定位与修复建议的因果关联性。实验表明代理虽具备基础错误识别能力，但将反馈转化为有效执行动作的转化率不足22%，揭示出环境交互与动态规划仍是待突破的技术难点。

常用场景

经典使用场景

在软件工程智能体研究领域，EnConda-Bench通过注入六类典型环境配置错误（如依赖安装异常、命令语法错误等），构建了过程级轨迹评估框架。该数据集被广泛应用于测试智能体在环境配置任务中的规划、感知、反馈与执行能力，研究者通过分析智能体在错误定位、诊断推理到修复执行的完整行为链，系统评估其环境交互与问题解决效能。

解决学术问题

该数据集突破了传统环境配置基准仅关注端到端成功率的局限，首次实现了对智能体内部能力的过程级诊断。通过自动化生成带标注错误的README文件并在Docker环境中验证，解决了软件工程智能体研究中轨迹分析数据稀缺、错误归因模糊等核心难题，为理解智能体在复杂系统交互中的认知瓶颈提供了量化依据。

实际应用

在实际软件开发流程中，EnConda-Bench可作为智能体训练与优化的核心验证平台。其生成的轨迹数据能直接用于增强智能体对版本冲突、路径缺失等现实配置问题的处理能力，显著提升自动化部署工具的鲁棒性。该框架已被集成至多款开源软件工程智能体（如Repo2Run、OpenHands）的迭代开发周期中。

数据集最近研究