BankerToolBench (BTB)

github2026-04-25 更新2026-04-15 收录

下载链接：

https://github.com/Handshake-AI-Research/bankertoolbench

下载链接

链接失效反馈

官方服务：

资源简介：

BankerToolBench是一个包含100个端到端投资银行任务的基准数据集，用于评估AI代理。每个任务模拟初级银行家的实际工作，如构建财务模型、准备推介材料、撰写备忘录等，并产生多文件交付物（Excel、PowerPoint、Word），这些交付物会根据专家制定的评分标准进行评分。该基准数据集是与包括高盛、摩根大通和Evercore在内的502名投资银行家共同开发的。

BankerToolBench is a benchmark comprising 100 end-to-end investment banking tasks for evaluating AI Agents. Each task simulates the real-world responsibilities of entry-level investment bankers, such as constructing financial models, preparing pitch materials, drafting memoranda, and producing multi-format deliverables including Excel, PowerPoint, and Word files. These deliverables are scored against expert-defined grading rubrics. This benchmark was co-developed with 502 investment bankers from leading investment banking firms including Goldman Sachs, JPMorgan Chase, and Evercore. The average completion time per task is 5 hours, with a maximum duration of 21 hours, and each task follows an average of 150 grading criteria.

创建时间：

2026-04-14

原始信息汇总

BankerToolBench (BTB) 数据集概述

数据集基本信息

数据集名称：BankerToolBench (BTB)
主要用途：一个包含100个端到端投资银行任务的基准测试，用于评估AI智能体。
任务特点：每个任务模拟真实的初级银行家工作（如构建金融模型、准备推介材料、撰写备忘录），并产生多文件交付成果（Excel、PowerPoint、Word），这些成果将根据专家制定的评分标准进行评分。
开发背景：该基准测试是与来自高盛、摩根大通和Evercore等公司的502名投资银行家共同开发的。人类完成每个任务的平均时间为5小时（最长可达21小时），每个任务的平均评分标准约为150条。

数据集结构与内容

数据集托管在Hugging Face平台（handshake-ai-research/bankertoolbench），并通过适配器自动下载到btb-data/目录中。

核心文件结构如下：

├── tasks.jsonl # 任务元数据（100个任务） ├── task-data/ # 每个任务的输入文件 │ └── <task_id>/Inputs/ # 提供给智能体的.xlsx、.pdf文件 ├── golden-outputs/ # 部分任务的参考输出 │ └── <task_id>/ # .pdf、.pptx、.xlsx文件 └── shared-tools/ # 共享金融数据（Git LFS） ├── logos.tar.gz # 公司徽标数据 ├── sec_edgar.tar.gz # SEC EDGAR文件（约1 GB） └── vdr.tar.gz # 虚拟数据室文件

任务元数据 (tasks.jsonl) 字段说明：

字段	类型	描述
`task_id`	字符串	唯一任务标识符（UUID）
`final_prompt`	字符串	核心任务指令
`prompt_context`	字符串	额外的背景/上下文信息（可能为空）
`formatting_context`	字符串	输出样式和格式要求
`product`	字符串	产品领域（DCM、ECM、Levfin、M&A）
`workflow_cat`	字符串	工作流程类别
`workflow_subcat`	字符串	工作流程子类别
`aggregated_rubric_json`	字符串（JSON）	评估标准：`[{criterion, weight, category}]`
`canary`	字符串	用于检测基准测试数据泄露的字符串

评估机制

评分系统：使用名为“Gandalf the Grader”的智能体验证器进行评分。该验证器以编程方式打开电子表格、检查公式并解析幻灯片，以评估每个评分标准。每个标准为二元（通过/失败）并按重要性加权（1/3/5/10）。任务得分是已通过标准的加权比例。

工具访问：每个任务为智能体提供提示、可选的输入文件，并允许访问三个MCP工具服务器以获取真实的金融数据：

工具	描述
SEC EDGAR	SEC文件数据库（约690家美国上市公司的10-K、10-Q、8-K、代理声明文件）
Virtual Data Room	市场数据平台API（约690家美国上市公司的财务数据、价格历史、分析师预测）
Company Logos	搜索公司信息，如徽标图像

使用与运行

运行环境：BTB被打包为Harbor任务套件，可与任何兼容Harbor的智能体框架（如OpenHands、OpenCode、Goose等）一起运行。
主要步骤：
1. 安装必要的软件（Docker Desktop, uv, Harbor >=0.3.0）。
2. 进行冒烟测试以确保环境配置正确。
3. 运行完整的基准测试（100个任务）。
任务筛选：支持通过任务ID、通配符、排除或数量限制来运行特定任务。
结果查看：结果写入jobs/<job-name>/目录，包含任务得分、每个标准的通过/失败详情、完整的智能体轨迹以及交付成果文件。

配置与自定义

运行通过作业YAML文件（如job.yaml）进行配置，可指定智能体框架、模型、任务路径等。
BTB附带一个自定义的系统提示模板（prompts/system_prompt.j2），为智能体提供关于工具、工作空间布局和约束的上下文。
可通过适配器CLI标志控制每个任务的设置（超时、验证器模型、评分标准）。

许可信息

代码采用Apache-2.0许可证。
数据集采用CC-BY-4.0许可证。

引用

如需在学术工作中引用此数据集，请使用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在投资银行领域，高质量数据集的构建对于评估人工智能代理的专业能力至关重要。BankerToolBench（BTB）的构建过程体现了严谨的学术与行业协作精神。该基准数据集由来自高盛、摩根大通等顶级投行的502位银行家共同开发，确保了任务场景的真实性与专业性。其核心包含100个端到端的投行任务，涵盖财务建模、路演材料准备及备忘录撰写等典型初级银行家工作。每个任务均配有详细的专家评分标准，平均包含150项评估指标，并模拟真实工作流程生成包含Excel、PowerPoint和Word文件的多文件交付物。数据集的构建深度植根于实际业务需求，平均每项任务的人类完成时间长达5小时，部分复杂任务甚至达到21小时，充分反映了投行工作的复杂性与高要求。

使用方法

使用BankerToolBench进行评估需遵循一套清晰的技术流程。首先需要配置包含Docker、Python包管理工具uv及相应API密钥的运行环境。通过Harbor框架安装适配器后，可生成具体的任务目录并启动基准测试。用户能够灵活选择运行全部100项任务或通过标识符、通配符等方式筛选特定任务进行针对性评估。任务执行在隔离的容器环境中进行，智能代理需根据提示访问工具服务器并生成多格式交付物。评估结果由验证代理自动生成，详细记录每项评分标准的通过情况、任务总分以及完整的代理执行轨迹。数据集支持对已有交付物进行重新评分，而无需重复运行代理，这为结果分析与方法迭代提供了便利。所有任务数据与共享金融资料均托管于Hugging Face平台，确保了使用的规范性与可复现性。

背景与挑战

背景概述

BankerToolBench（BTB）由Handshake AI等机构于2026年推出，是一个专为评估AI智能体在投资银行领域复杂任务执行能力而构建的基准测试。该数据集汇集了来自高盛、摩根大通等顶尖投行的502位银行家的专业经验，精心设计了100项端到端的真实工作任务，涵盖金融建模、路演材料撰写及备忘录起草等核心业务流程。其核心研究问题在于如何系统性地衡量AI智能体在高度专业化、多工具协作环境下的实际工作效能，旨在推动金融科技领域向自动化、智能化方向演进，为下一代行业级AI系统的研发提供了关键评估框架。

当前挑战

该数据集致力于解决投资银行工作流程自动化中的核心挑战，即如何让AI智能体在开放工具环境中准确理解复杂业务指令、自主调用多源金融数据（如SEC EDGAR数据库、市场数据平台），并生成符合专业规范的多格式交付成果（Excel、PowerPoint、Word）。在构建过程中，挑战主要体现在任务设计的真实性与评估的精确性上：需将平均耗时5小时、最多达21小时的人类专家工作转化为可自动化评估的结构化任务，并为每项任务制定平均包含150条细则的专家评分标准，同时确保评估系统能够程序化地校验电子表格公式、解析演示文稿内容，以实现对交付成果的细粒度、可复现的自动化评分。

常用场景

经典使用场景

在金融科技与人工智能交叉领域，BankerToolBench（BTB）作为一项端到端投资银行任务基准，其经典使用场景集中于评估AI智能体在复杂金融工作流中的综合能力。该基准模拟了初级银行家的实际工作内容，例如构建财务模型、准备推介演示文稿以及撰写备忘录，并生成包含Excel、PowerPoint和Word文件的多文件交付成果。通过集成SEC EDGAR数据库、虚拟数据室API等真实金融数据工具，BTB为研究者提供了一个高度仿真的测试环境，用以衡量智能体在检索、分析和整合金融信息方面的表现。

解决学术问题

BTB数据集主要解决了人工智能在专业垂直领域应用中的评估难题，特别是针对投资银行业务这类高复杂性、多步骤的工作流程。它通过由502名来自高盛、摩根大通等机构的投资银行家共同设计的详细评分标准，平均每个任务包含150项评估准则，为学术研究提供了可量化、可复现的评估框架。该数据集的意义在于填补了现有AI基准在专业金融任务评估上的空白，推动了面向具体行业应用的智能体能力研究，并为衡量模型在真实业务场景中的实用性设立了新的标准。

实际应用

在实际应用层面，BankerToolBench为金融机构和科技公司提供了测试与优化自动化银行工具的可靠平台。企业可以利用该基准对新开发的AI助手或流程自动化系统进行压力测试，评估其在处理并购分析、债务资本市场建模等核心投行业务时的准确性与效率。此外，该数据集所采用的隔离Docker容器环境和程序化评分器‘Gandalf the Grader’，能够确保评估过程的客观性与一致性，为产品迭代和性能对标提供了坚实的数据支撑。

数据集最近研究