AuditRepairBench
收藏arXiv2026-05-06 更新2026-05-10 收录
下载链接:
https://anonymous.4open.science/r/AuditRepairBench-D1EE/
下载链接
链接失效反馈官方服务:
资源简介:
AuditRepairBench是由上海交通大学和上海海事大学联合发布的配对执行轨迹语料库,旨在量化评估器-选择器耦合对智能体修复系统排名稳定性的影响。该数据集包含576,000个注册单元格(96,000条执行轨迹),覆盖60种智能体系统、80项任务和6类评估器配置,通过静态分析和动态污点追踪确保选择器输入边界覆盖率≥0.8。数据采集采用模块化筛选架构,结合学习型影响代理、基于规则的通道暴露率等四种方法生成筛查后验概率。该资源主要应用于AI系统可靠性评估领域,可检测评估器信号渗入选择逻辑导致的排名偏移问题,其轻量版AuditRepairBench-Lite在24GPU小时内保持Kendall τ=0.88的排名一致性。
提供机构:
上海交通大学; 上海海事大学
创建时间:
2026-05-06
原始信息汇总
根据您提供的数据集详情页面内容,以下是对数据集的关键信息总结:
数据集概述
名称
- AuditRepairBench
核心目标
- 系统性地衡量基于LLM的智能体在修复任务中,因使用不同评估通道(如单元测试、linter、人工评分等)而产生的评估通道排名不稳定性现象。即同一修复方法在不同评估通道下可能获得截然不同的性能排名,即使评估通道对最终通过/失败结果一致。
数据集内容
- 配对执行轨迹语料库(Paired-Execution Trace Corpus):针对每个失败案例,同一智能体在两个不同评估通道下分别尝试修复,生成可控的对比数据,从而隔离评估通道对修复轨迹和结果质量的影响。
- 分析流程:采用“筛选-堆叠”(screening-then-stacking)分析流程,量化排名翻转的频率、发生条件,并判断是否可以恢复共识排名。
数据集结构
项目主要目录及内容如下:
| 目录/文件 | 说明 |
|---|---|
data/ |
数据模块及语料库,包含Pydantic模式定义(如TraceCell、PairedExecution、FlipFunctionalConfig等) |
src/core/ |
语料库构建和轨迹编排 |
src/screening/ |
筛选测试实现 |
src/traces/ |
配对轨迹执行引擎 |
src/evaluation/ |
翻转检测与排名分析 |
src/annotation/ |
通道手术标注工具 |
src/visualization/ |
论文图表生成 |
scripts/ |
流水线入口脚本(01–10) |
configs/ |
YAML配置文件 |
tests/ |
单元测试与集成测试 |
使用方式
- 快速体验(Lite模式):运行
make lite,在单GPU上10分钟内完成约50组轨迹对的完整流程,输出翻转率摘要和排名散点图。 - 完整基准(Full Benchmark):需访问
configs/systems.yaml中指定的模型,在多GPU上运行数小时,可通过make full-benchmark或分阶段执行。
技术依赖
- Python 3.10+
- 安装命令:
pip install -e ".[dev]"或pip install -e ".[all]"
学术引用
-
预收录于 NeurIPS 2026,参考文献格式如下(具体作者信息未公开):
@inproceedings{auditrepairbench2026, title = {AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair}, author = {AuditRepairBench Authors}, booktitle = {NeurIPS}, year = {2026} }
搜集汇总
数据集介绍

构建方式
在智能体修复系统的评估领域,排行榜的不稳定性常源于评估器与选择器之间的信息耦合。为此,研究者构建了AuditRepairBench,一个配对执行轨迹语料库。该数据集的设计空间源自60个智能体系统、80个任务、6个评估器家族、4个配对种子和5个注册干预家族的笛卡尔积,共产生576,000个注册单元,其中96,000个以配对轨迹形式实际执行。每个单元记录智能体系统在给定任务和评估器配置下的观察轨迹与反事实轨迹,并保留候选人修复集、获胜者信息及钩子完整性指标。数据集将系统分为20个完全仪表化的主范围系统和40个仅行为系统,确保对评估器-选择器通道的全面覆盖。
特点
AuditRepairBench的核心特点在于其模块化筛选架构,能够识别并隔离评估器-选择器耦合通道。该架构集成了四种异构实现:基于学习的代理、无训练的规则化暴露比、反事实敏感度代理以及稀疏人工审计代理,通过校准逻辑堆叠融合为筛选后验概率。数据集在80例源码级通道手术子集上达到路径阻断AUROC 0.96,并通过独立发现协议在79例盲注案例上验证了泛化能力。其创新之处在于提供细胞级翻转得分与集合值标签,支持精确诊断而非笼统的噪声检测。轻量版AuditRepairBench-Lite仅需少于24个GPU小时即可在Kendall τ=0.88下复现完整排行榜,大幅降低了使用门槛。
使用方法
使用者可通过加载JSON Lines格式的原始语料字段(包含智能体ID、任务、评估器、轨迹哈希等)直接访问数据集。系统提供了参考分析管道,包含四种筛选实现的评分及后验概率;用户亦可植入自定义筛选算法,仅需读取原始字段并追加新的阻断分数。轻量版可作为主要入口,在单台八GPU机上于24小时内完成评估。提交流程通过Docker容器标准化:挂载智能体检查点,运行审计提交命令即生成签名排行榜更新。为确保可靠性,数据集还配备了抗博弈校验与分层可信度校准,使高钩子完整性系统获得操作级信任,而低可见性系统仅作指示性报告。
背景与挑战
背景概述
AuditRepairBench诞生于智能体修复系统评测领域日益凸显的排名稳定性危机之中。该数据集由上海交通大学胡悦霖、余振波、程正则、宋利团队与上海海事大学刘威研究员于2026年联合创建,核心研究问题直指代理修复排行榜在评估器重新配置时出现的系统性排序失稳现象。研究团队发现,当修复系统内部选择机制依赖评估器输出信号时,评估器更换导致的排名变动中可观比例可归因于这种评估器-选择器耦合效应。该数据集提供了包含576,000个注册追踪单元的配对执行轨迹语料库,其中96,000个单元为实际执行配对,为量化这种耦合效应提供了标准化测量基准。AuditRepairBench的发布标志着智能体评估领域从关注统计噪声转向架构性评测偏差的重要转折,其影响力不仅限于编程修复评测,更为多智能体系统的可信基准构建树立了方法论范本。
当前挑战
AuditRepairBench所面对的挑战呈现双重维度。从领域问题层面看,现有排行榜稳定性研究多聚焦于重采样或评估器可信度等统计学视角,未能有效区分因评估器噪声引发的常规不稳定与因评估器-选择器信息通路引发的架构性耦合效应。后者作为一种隐蔽的系统交互模式,使得部分代理修复系统通过读取评估器产生的评分理由、判决标量或排序对数等信号进行内部候选修复选择,从而在评估器变更时产生不成比例的排名位移,这一问题本质上属于评估基础设施的设计缺陷而非单纯的基准统计波动。在构建层面,研究团队面临的最大挑战在于如何在不破坏系统完整性的前提下精确阻断评估器到选择器的信息路径,为此他们设计了包含学习影响代理、基于规则的信道暴露比率、反事实敏感代理及稀疏人工审计代理四种可互换实施的模块化筛选架构,并在80个源代码级通道手术子集上通过机制锚定验证,同时采用独立发现协议确保筛选设计的客观性,最终以42 GB轻量版本实现开放共享。
常用场景
经典使用场景
在智能体修复系统的评估领域,排行榜的稳定性始终是关乎公平性与可复现性的核心议题。AuditRepairBench 作为一个成对执行轨迹语料库,其最经典的用途在于系统性地量化和诊断评估器通道耦合导致的排名不稳定性。通过将评估器输出信号从选择器输入端阻断,研究者能够精准识别哪些系统的排名变动源于评估器与选择器之间的信息依赖,而非普遍的基准噪声。该数据集支撑了从单细胞翻转功能到集合值排行榜的完整分析管线,为揭示排行榜重构背后的结构性缺陷提供了标准化的测量工具。
衍生相关工作
AuditRepairBench 的发布催生了一系列重要的相关工作。其轻量级版本 AuditRepairBench-Lite 仅依赖规则性暴露比值筛查,在不到24个GPU小时内即可完成评测,保留了全量基准排行榜高达0.88的Kendall τ一致性,极大地降低了研究者的准入门槛。此外,该数据集的双盲独立发现协议验证了其筛查架构对全新耦合类型的泛化能力,推动了关于记忆奖励回响、候选池启动、评判熵泄露等新型耦合机制的深入研究。这些衍生工作共同构建了一个以筛查后验为核心的评估生态,在确保评估公正性的同时,为智能体修复系统的可信基准建设提供了持续演进的实验平台。
数据集最近研究
最新研究方向
在智能体修复系统评估领域,AuditRepairBench开创性地聚焦于评估器-选择器耦合引发的不稳定性这一前沿问题。该数据集通过构建包含576,000个注册单元的成对执行轨迹语料库,系统性地量化了因评估器重配置导致的排行榜重排现象。当前研究热点集中在此类耦合失效模式的检测与修复上,揭示了四种具有耦合特征的智能体系统在评估器通道屏蔽后排名位移减少55%-74%的显著效果。这一发现对构建可信赖的智能体评估基准具有深远意义,推动研究从简单的排行榜统计稳定性转向对评估信息流中架构耦合的精细化诊断。该工作还提供了轻量级的Lite版本,在仅需24 GPU小时的条件下保持Kendall τ=0.88的排行榜一致性,显著降低了研究门槛。
相关研究论文
- 1AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair上海交通大学; 上海海事大学 · 2026年
以上内容由遇见数据集搜集并总结生成



