VAKRA
收藏github2026-03-25 更新2026-03-27 收录
下载链接:
https://github.com/IBM/vakra
下载链接
链接失效反馈官方服务:
资源简介:
VAKRA是一个工具基础的、可执行的基准测试,旨在评估AI代理在企业类似环境中的端到端推理能力。它通过完整的执行轨迹来评估代理是否能够可靠地完成多步骤工作流,而不仅仅是单个步骤。VAKRA提供了一个可执行环境,代理可以与超过8,000个本地托管的API交互,这些API由跨越62个领域的真实数据库支持,同时还包括领域对齐的文档集合。
VAKRA is a tool-based, executable benchmark designed to evaluate the end-to-end reasoning capabilities of AI Agents in enterprise-like environments. It assesses whether an Agent can reliably complete multi-step workflows via full execution trajectories, rather than just single-step tasks. VAKRA provides an executable environment where Agents can interact with over 8,000 locally-hosted APIs, which are backed by real-world databases spanning 62 domains, and also includes domain-aligned document collections.
创建时间:
2026-02-25
原始信息汇总
VAKRA 数据集概述
数据集基本信息
- 数据集名称: VAKRA (eValuating API and Knowledge Retrieval Agents using multi-hop, multi-source dialogues)
- 核心定位: 一个用于评估AI智能体在企业级场景中进行端到端推理的工具化、可执行基准测试。
- 主要目标: 评估智能体在跨API和文档的组合式推理能力,通过完整的执行轨迹来衡量其是否能可靠地完成多步骤工作流,而非仅测试孤立的技能。
数据集核心构成
- 可执行环境: 包含超过8,000个本地托管的API,这些API由涵盖62个领域的真实数据库支持。
- 领域对齐文档集: 提供用于检索增强、跨源推理的文档集合。
- 任务设计: 任务要求智能体在API、文档和自然语言工具使用约束之间进行3-7步的推理链。
基准测试结构
VAKRA将评估组织为四个能力维度,反映了三种逐步复杂的场景。
1. 多样化的API交互风格
专注于不同接口抽象级别的结构化工具使用。
capability_1_bi_apis(API链式调用): 嵌套和组合式的API链式调用。capability_2_dashboard_apis(工具选择): 在查询对齐的端点上进行大规模工具选择。
2. 基于结构化API的多跳推理
要求智能体在API上进行依赖性的推理链,其中早期的输出必须被解释并转换以供后续调用。
capability_3_multihop_reasoning(多跳API推理)
3. 结合工具使用策略的多跳、多源推理
在多轮对话设置中,结合了API推理和文档检索,并包含关于工具使用的自然语言约束。
capability_4_multiturn(多跳多源与策略遵循)
数据集统计概览
公开数据集发布在Hugging Face。
测试集高级统计信息如下:
| 能力维度 | 描述 | 领域数量 | 样本数量 |
|---|---|---|---|
| 1 | API链式调用 | 54 | 2,077 |
| 2 | 工具选择 | 17 | 1,597 |
| 3 | 多跳推理 | 38 | 869 |
| 4 | 结合策略的多跳、多源推理 | 41 | 644 |
评估方法
- 确定性评估: 通过实时工具重放和轨迹级验证进行评估。
- 评估重点: 结合了程序化和基于模型的检查,评估工具使用和策略遵循情况、预期工具响应的精确匹配以及最终答案相对于工具输出的可追溯性。
相关资源链接
- 数据集地址: https://huggingface.co/datasets/ibm-research/VAKRA
- 排行榜: https://ibm-research-vakra.hf.space
- 博客文章: https://www.ibm.com/new/announcements/introducing-vakra-benchmark
搜集汇总
数据集介绍

构建方式
在人工智能代理工具调用评估领域,VAKRA数据集通过构建一个模拟企业级工作流程的可执行基准环境来精心设计。该数据集整合了超过8,000个本地托管的API,这些API基于覆盖62个领域的真实数据库,并配备了领域对齐的文档集合。数据集的构建过程强调多跳、多源的组合式推理,任务设计包含3至7步的推理链,要求代理在API调用、文档检索以及自然语言工具使用约束之间进行端到端的连贯推理。整个环境支持确定性评估,通过实时工具回放和轨迹级验证来确保评估的可靠性与可复现性。
特点
VAKRA数据集的核心特点在于其对企业级复杂工作流程的高度仿真与系统性评估。数据集不仅提供了大规模、多样化的结构化API接口,还深度融合了检索增强的跨源推理场景。其任务设计超越了单一技能测试,专注于衡量代理在异构工具和知识源之间进行组合式推理的能力,包括实体消歧、跨源信息关联、参数与模式对齐等关键环节。数据集通过四种渐进式复杂的能力划分,系统性地涵盖了从基础API链式调用到多轮、多源且包含策略约束的复杂决策工作流,为评估智能代理的鲁棒性与泛化性提供了全面而严谨的基准。
使用方法
研究人员可通过开源代码库快速部署VAKRA的本地可执行环境,并利用其提供的基准运行器对自定义代理进行评估。使用过程始于环境配置,包括数据下载、容器构建与服务启动。评估时,用户可选择不同的能力模块与特定领域,通过命令行参数指定模型提供商与代理配置,运行端到端的测试。数据集支持灵活的集成方式,用户可直接使用内置的代理运行器,或通过实现标准化的代理接口来接入自定义的推理系统。评估完成后,系统会生成包含详细轨迹与工具调用序列的结构化输出,支持通过验证脚本进行结果校验,并可进一步提交至公开的排行榜进行性能比较。
背景与挑战
背景概述
在人工智能代理技术快速演进的背景下,多跳、多源工具调用能力成为衡量智能体在复杂企业环境中实际效能的关键指标。VAKRA(评估API和知识检索代理的多跳多源对话基准)由IBM研究院于近期推出,旨在填补现有基准在评估端到端组合推理方面的空白。该数据集构建了一个包含62个领域、超过8000个本地托管API及对应文档集合的可执行环境,核心研究聚焦于智能体在跨系统、跨模态工作流中完成多步骤推理链的可靠性。VAKRA的创立标志着评估范式从孤立技能测试向真实场景下综合决策能力的转变,为推进具身智能与工具增强型语言模型的发展提供了严谨的评估框架。
当前挑战
VAKRA致力于解决智能体在复杂企业工作流中执行多跳、多源工具调用的核心挑战,其首要难题在于如何精准评估组合推理能力,包括实体消歧、跨源信息对齐、参数模式匹配及自然语言约束下的工具选择等。构建过程中面临多重技术障碍:需协调超过8000个API与异构数据库的集成,确保执行轨迹的可复现性与确定性评估;同时,设计涵盖3至7步推理链的任务需平衡领域覆盖度与任务复杂性,并构建支持实时工具重放的验证体系。这些挑战共同指向了智能体在动态、多约束环境中实现稳健决策的深层技术瓶颈。
常用场景
经典使用场景
在人工智能代理研究领域,VAKRA数据集被广泛用于评估代理在复杂企业级工作流中的多跳、多源工具调用能力。其经典使用场景聚焦于模拟真实业务环境,要求代理通过组合推理链,跨越多达62个领域的8000余个本地API及文档集合,执行3至7步的端到端工作流。这一场景不仅测试代理对结构化工具接口的调用,还涉及自然语言约束下的策略遵循与跨源信息融合,为衡量代理在动态、异构系统中的实际表现提供了标准化测试平台。
实际应用
在实际应用层面,VAKRA数据集直接服务于企业级智能代理的研发与优化。例如,在客户服务自动化、跨部门数据查询、合规性检查等复杂业务流程中,代理需要协调多个内部API与文档库以完成端到端任务。该数据集通过模拟这些真实场景,帮助开发者验证代理在参数转换、模式匹配及策略遵循等方面的可靠性,从而降低系统集成风险,提升业务流程的自动化水平与决策准确性。
衍生相关工作
围绕VAKRA数据集,学术界与工业界已衍生出一系列经典研究工作。这些工作主要集中在增强代理的多跳推理架构、改进工具检索与选择算法,以及开发更高效的轨迹验证方法。例如,基于VAKRA的评估框架,研究者提出了结合强化学习与符号推理的混合代理模型,以提升其在长链条任务中的稳定性;同时,也有工作专注于利用检索增强生成技术优化跨源信息融合,显著提升了代理在复杂对话场景中的表现。这些衍生成果共同推动了智能代理技术在真实世界应用中的成熟度。
以上内容由遇见数据集搜集并总结生成



