veAgentBench

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/bytedance-research/veAgentBench

下载链接

链接失效反馈

官方服务：

资源简介：

VeAgentBench数据集是基于特定场景下代理应用的设计，旨在测试和评估全流程代理开发框架（如veADK）生成的代理质量。该数据集重点关注代理在工具调用、知识库检索、内存管理以及整体性能方面的能力评估。它包含四个子数据集，分别针对教育辅导、财务分析、法律援助和个人助理场景，共484个问题，其中145个问题公开可用。

创建时间：

2025-11-12

原始信息汇总

VeAgentBench 数据集概述

数据集基本信息

数据集名称: VeAgentBench
许可证: CC BY-NC 4.0
首次发布时间: 2025年11月25日
总问题数量: 484个
公开问题数量: 145个

数据集设计目标

专注于测试和评估由全流程智能体开发框架生成的智能体质量，重点评估智能体在工具调用、知识库检索、记忆管理和整体性能方面的能力。

数据集结构

配置信息

教育辅导子数据集: dataset/educational_tutoring.csv
金融分析子数据集: dataset/financial_analysis.csv
法律援助子数据集: dataset/legal_aid.csv
个人助理子数据集: dataset/personal_assistant.csv

项目目录结构

dataset/ # 数据集文件目录 agents/ # 示例智能体实现 knowledge/ # 知识库文件目录

子数据集详情

法律援助子数据集

问题数量: 总计250个，公开70个
设计目标: 围绕"分层知识检索能力"设计，覆盖RAG知识库完全覆盖和覆盖不足的场景
数据来源: 公共法律条款和案例数据库
评估重点: 知识检索能力

金融分析子数据集

问题数量: 总计57个，公开20个
设计目标: 聚焦金融场景中的"多工具协作需求"
数据来源: AKshare项目提供的公开金融数据
评估重点: 多工具协作能力、深度研究能力

教育辅导子数据集

问题数量: 总计74个，公开25个
设计目标: 测试智能体的"RAG信息提取准确性"
数据来源: 公共教育教材和辅导材料
评估重点: 信息提取准确性、记忆获取关键信息能力

个人助理子数据集

问题数量: 总计103个，公开30个
设计目标: 从简单到复杂考察智能体在实际任务场景中的工具调用能力
数据来源: 基于日常任务和评估目标手动设计
评估重点: 工具调用、事件总结、用户画像能力

数据集优势

场景导向设计：模拟真实世界智能体行为
多维度评估：全面评估智能体能力
提供示例智能体：基于火山引擎veADK实现

使用要求

法律援助和教育辅导智能体需要配置RAG知识库
个人助理智能体需要从火山引擎MCP市场获取相关API KEY
使用veADK框架运行示例智能体

许可限制

仅限学术研究使用
禁止商业用途
采用CC BY-NC 4.0许可证

搜集汇总

数据集介绍

构建方式

veAgentBench数据集采用场景驱动的构建理念，围绕智能代理在现实应用中的核心需求展开设计。该数据集通过系统化采集公开领域的专业资料，包括法律条文与案例库、金融数据指标、教育教材资源及日常任务模板，构建了涵盖法律辅助、金融分析、教育辅导与个人助理四大领域的484道测试题目。每个子数据集均针对特定能力维度进行结构化设计，例如法律领域侧重分层知识检索，金融场景强调多工具协同，教育模块关注信息提取精度，个人助理则考察任务复杂度递进。数据格式采用标准化的CSV文件，明确标注了输入问题、预期输出、工具调用路径及记忆使用要求，为评估框架提供清晰的基准参照。

特点

该数据集展现出多维度评估的鲜明特色，通过模拟真实场景中智能代理的行为模式，全面检验其在工具调用、知识库检索、记忆管理等核心能力上的表现。四大领域子集分别针对不同技术难点：法律辅助测试知识覆盖完整性，金融分析验证数据工具协作能力，教育辅导考察信息提取准确性，个人助理则聚焦任务层级递进与用户画像构建。数据集特别提供基于veADK框架的示例代理实现，包含完整的工具链与知识库配置，支持开发者直接调用并扩展。其场景导向的设计理念使评估结果更具实践指导价值，为代理系统的性能优化提供精准参照。

使用方法

使用该数据集需遵循系统化操作流程，首先通过Git克隆获取完整数据文件与示例代码。针对法律辅助与教育辅导场景，需按照知识目录下的文件配置RAG知识库系统；个人助理模块则要求从Volcengine MCP市场获取相应API密钥并配置环境变量。开发者可基于veADK框架运行示例代理，执行后将生成任务追踪文件与评估集文件，通过与VeAgentBench评估框架对接完成全面性能测试。数据集采用CC BY-NC 4.0许可协议，严格限定于学术研究用途，商业应用需另行授权。该标准化使用流程确保评估结果的可复现性与可比性，为智能代理技术的发展提供可靠基准。

背景与挑战

背景概述

在智能体技术蓬勃发展的背景下，字节跳动研究团队于2025年11月正式推出veAgentBench数据集。该数据集聚焦于全流程智能体开发框架的质量评估，覆盖法律辅助、金融分析、教育辅导与个人助理四大应用场景。通过模拟真实世界任务需求，数据集旨在系统检验智能体在工具调用、知识库检索及记忆管理等核心维度的性能表现，为智能体技术的标准化评测提供重要基准。

当前挑战

该数据集需应对智能体在复杂场景中的多维度能力挑战：法律领域需解决分层知识检索的精准性问题，金融场景要求多工具协同与深度数据挖掘能力，教育类任务考验知识库信息提取准确性，个人助理则需实现从基础操作到事件归纳的渐进式任务处理。构建过程中面临真实场景模拟、多源数据融合与评估标准确立等核心难题，尤其需平衡知识库覆盖广度与检索效率间的矛盾。

常用场景

经典使用场景

在智能代理系统评估领域，veAgentBench通过模拟教育辅导、金融分析、法律咨询与个人助理四大现实场景，构建了多维度的能力测试框架。该数据集特别注重工具调用、知识库检索与记忆管理的协同运作，例如在金融分析场景中要求代理根据事件线索定位公司信息并调用多工具完成股价数据分析，有效验证了复杂任务下的逻辑推理与工具协作能力。

衍生相关工作

基于该数据集衍生的经典研究包括Volcengine veADK开发框架的迭代优化，其通过Trace文件与eval_set评估机制建立了端到端的代理性能监控体系。同时催生了多工具协作决策模型的创新，如在金融领域结合AKshare数据接口的深度分析代理，以及教育场景中融合记忆管理的自适应答疑系统，这些工作持续推动着行业级代理开发范式的演进。

数据集最近研究