five

AgentDropoutV2 Dataset

收藏
arXiv2026-02-27 更新2026-02-28 收录
下载链接:
https://github.com/TonySY2/AgentDropoutV2
下载链接
链接失效反馈
官方服务:
资源简介:
AgentDropoutV2数据集由哈尔滨工业大学·深圳和阿里巴巴集团联合构建,旨在优化多智能体系统中的信息流。该数据集包含丰富的数学和代码生成基准测试数据,用于评估和提升多智能体系统的性能。数据集通过从失败的MAS轨迹中提取错误模式,构建了一个先验知识库,支持实时错误识别与修正。其应用领域聚焦于复杂任务求解,如数学推理和代码生成,有效解决了多智能体系统中错误传播导致的性能下降问题。

The AgentDropoutV2 dataset was jointly constructed by Harbin Institute of Technology, Shenzhen and Alibaba Group, aiming to optimize the information flow in multi-agent systems. This dataset provides abundant benchmark data for mathematical reasoning and code generation, which is used to evaluate and enhance the performance of multi-agent systems. By extracting error patterns from failed multi-agent system (MAS) trajectories, the dataset constructs a prior knowledge base to support real-time error identification and correction. Its application scenarios focus on complex task solving such as mathematical reasoning and code generation, effectively addressing the performance degradation caused by error propagation in multi-agent systems.
提供机构:
哈尔滨工业大学·深圳; 阿里巴巴集团
创建时间:
2026-02-27
原始信息汇总

AgentDropoutV2 数据集概述

数据集基本信息

  • 数据集名称:AgentDropoutV2
  • 发布来源:论文《AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning》的代码与数据
  • 发布日期:2026年2月27日
  • 相关论文:arXiv:2602.23258 (https://arxiv.org/abs/2602.23258)

数据集用途与背景

  • 核心目的:用于动态优化多智能体系统中的信息流,无需昂贵的重新训练。
  • 功能描述:作为一个测试时框架,在MAS执行期间充当主动防火墙,通过拦截、纠正、拒绝和回退机制来防止错误传播。

数据集内容与结构

  • 主要组成部分:包含用于离线指标池构建的train部分和用于在线推理的test部分。
  • 关键文件
    • 指标池文件 (metric_pool_file)
    • 预计算的嵌入缓存文件 (.jsonl格式的embedding_cache_file)
  • 数据生成:可通过运行训练脚本(如run-math-train.sh, run-aqua-train.sh)从训练输出中提取原始指标,经过去重和嵌入生成后构建自定义指标池。

使用与评估

  • 评估基准:支持在多个基准测试上运行评估,例如数学问题(run-math500.sh)、AQUA(run-aqua.sh)、LiveCode(run-livecode.sh)。
  • 结果计算:通过calc_accuracy.py脚本计算最终准确率,需设置结果文件路径(FILE_PATH)。
  • 核心参数:包括输入/输出文件路径、各模型端点与API密钥、指标池与嵌入缓存文件路径、最大对话轮次(max_turns)、审核阈值(pass_rate)、重试次数(retries_times)、检索大小(direct_k, random_k)等。

依赖与配置

  • 环境要求:Python 3.10.18,依赖包见requirements.txt
  • 配置说明:脚本中包含可配置字段(如模型名称、API URL、API密钥、数据/输出路径),需根据实际设置进行填充。

引用

如需使用本数据集,请引用相关论文:

@misc{wang2026agentdropoutv2optimizinginformationflow, title={AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning}, author={Yutong Wang and Siyuan Xiong and Xuebo Liu and Wenkang Zhou and Liang Ding and Miao Zhang and Min Zhang}, year={2026}, eprint={2602.23258}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.23258}, }

搜集汇总
数据集介绍
构建方式
在构建AgentDropoutV2数据集时,研究团队采用了一种基于失败驱动挖掘的策略,从多智能体系统在数学推理任务中的失败轨迹中提炼错误模式。具体而言,团队首先在MATH和AQuA等数学数据集的训练集上运行多智能体系统,收集那些最终输出与标准答案不符的执行轨迹。随后,通过一个教师模型对这些失败案例进行深入分析,识别出个体智能体输出中的具体错误,并将其编码为结构化的对抗性指标。每个指标包含错误名称、详细定义和触发条件,形成了一个可检索的知识库。为了确保指标库的紧凑性和多样性,团队还实施了双重去重机制,通过语义嵌入和去重模型过滤冗余条目,最终构建了一个包含约2000个指标的池,为实时错误检测提供了丰富的先验知识。
特点
AgentDropoutV2数据集的核心特点在于其动态性和适应性,专为优化多智能体系统中的信息流而设计。该数据集通过一个结构化的对抗性指标池,封装了广泛的数学推理错误模式,如平方根操作误用、整数条件管理不当等。这些指标不仅具有明确的语义定义,还关联了特定的触发条件,使得系统能够在测试时根据当前任务上下文智能检索相关指标。数据集支持迭代修正机制,允许智能体在输出被传播前进行多轮反馈驱动的改进,从而有效拦截和纠正潜在错误。此外,数据集的构建注重跨模型和跨领域的可移植性,指标池在不同规模的语言模型和数学到代码生成等任务中展现出稳健的泛化能力,体现了其作为即插即用干预解决方案的实用价值。
使用方法
在使用AgentDropoutV2数据集时,它作为一个即时的错误检测与修正框架集成到多智能体系统的执行流程中。当系统中某个智能体生成输出后,该输出会被主动拦截,并送入一个专用的修正器模块。修正器首先从预构建的指标池中检索与当前任务场景最相关的K个对抗性指标,这些指标通过语义相似度匹配获得。接着,修正器以这些指标为基准,对智能体输出进行逐项评估,生成具体的违规标志和诊断反馈。如果检测到错误,系统会启动迭代修正过程,智能体根据反馈重新生成输出,直至错误被消除或达到最大迭代次数。无法修正的输出将被修剪,以防止错误传播至下游智能体。整个流程无需重新训练模型,实现了测试时的动态优化,显著提升了多智能体系统在复杂推理任务中的准确性和可靠性。
背景与挑战
背景概述
随着大语言模型驱动的智能体在复杂推理任务中展现出卓越性能,多智能体系统因其能够整合集体智慧、协调团队协作而成为处理复杂场景的重要范式。然而,系统结构的复杂性也使其容易受到个别参与者错误输出的影响,导致错误在系统中级联传播,最终损害整体任务性能。AgentDropoutV2数据集由哈尔滨工业大学(深圳)与阿里巴巴集团的研究团队于2026年2月发布,旨在通过构建一个基于失败轨迹挖掘的对抗性指示器池,为多智能体系统的测试时纠错与剪枝框架提供核心知识库。该数据集聚焦于数学推理与代码生成领域,通过从历史失败案例中蒸馏错误模式,封装了广泛的推理陷阱,为实时错误识别与修正提供了结构化参考,显著提升了多智能体系统在复杂任务中的准确性与鲁棒性。
当前挑战
AgentDropoutV2数据集致力于解决多智能体系统中错误传播的核心挑战,其核心问题在于如何动态优化信息流,防止个别智能体的错误输出级联影响下游节点。构建过程中的主要挑战包括:首先,从海量失败轨迹中精确蒸馏出泛化性强、覆盖全面的错误模式,避免指示器池陷入冗余或偏颇;其次,设计高效的语义检索与去重机制,确保在测试时能够快速匹配上下文相关的指示器,同时维持知识库的紧凑性与高熵值;此外,需确保指示器在不同模型规模与任务领域间的可迁移性,实现“一次构建、随处部署”的实用目标。这些挑战要求数据集在构建时兼顾错误模式的多样性、语义表达的准确性以及跨域泛化的稳健性。
常用场景
经典使用场景
在多智能体系统研究中,AgentDropoutV2数据集为评估信息流优化机制提供了关键基准。该数据集通过收集数学推理与代码生成任务中的失败轨迹,构建了包含多样化错误模式的指示器池,使得研究者能够系统性地测试实时纠错与剪枝框架的有效性。在经典使用场景中,该数据集被广泛应用于验证测试时干预策略,例如在AutoGen等多智能体框架中,通过检索特定错误指示器对智能体输出进行迭代修正,从而防止错误在协作链中传播。这种场景不仅凸显了数据集在复杂任务中的实用性,还为动态优化信息流的研究提供了标准化评估环境。
实际应用
在实际应用层面,AgentDropoutV2数据集被集成到自动化软件开发和科学发现等多智能体系统中,以增强系统在真实场景下的可靠性。例如,在代码生成任务中,该数据集驱动的纠错机制能够实时检测逻辑漏洞或语法错误,并通过反馈引导智能体重新生成正确代码,从而提升开发效率与代码质量。此外,在数学解题或长上下文处理等需要高精度推理的领域,该数据集支持的剪枝策略可主动拦截错误信息,确保最终输出的准确性。这些应用展示了数据集在构建稳健、自适应智能体协作平台中的实用价值。
衍生相关工作
基于AgentDropoutV2数据集,学术界衍生了一系列专注于多智能体系统优化的经典工作。例如,研究者们借鉴其测试时纠错机制,开发了如GuardAgent等安全监控框架,通过知识增强的推理实时防护智能体行为。同时,该数据集的指示器池构建方法启发了如AgentRacer等错误归因工具,能够精准追踪失败根源并优化系统架构。此外,结合图神经网络或稀疏通信拓扑的研究也利用该数据集验证了动态信息流调控策略的有效性,进一步推动了多智能体系统在结构设计与错误缓解方面的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作