DianJin/FinMCP-Bench

Name: DianJin/FinMCP-Bench
Creator: DianJin
Published: 2025-10-14 13:55:11
License: 暂无描述

Hugging Face2025-10-14 更新2025-10-18 收录

下载链接：

https://hf-mirror.com/datasets/DianJin/FinMCP-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FinMCP-Bench是一个金融场景下用于评估大型语言模型调用MCP工具能力的全面基准数据集，包含613个样本，分为10个主要场景和33个子场景，涵盖真实与合成用户查询，包含单工具、多工具和多轮对话三种样本类型。

FinMCP-Bench is a comprehensive benchmark dataset for evaluating the ability of large language models to invoke MCP tools in financial scenarios, containing 613 samples across 10 main scenarios and 33 sub-scenarios, covering both real and synthetic user queries, and including three sample types: single tool, multi-tool, and multi-turn.

提供机构：

DianJin

搜集汇总

数据集介绍

构建方式

FinMCP-Bench由DianJin团队构建，旨在系统评估大语言模型在金融场景中调用MCP工具的能力。该数据集涵盖10个主要场景与33个子场景，包含613个样本，样本类型分为单工具、多工具和多轮交互三类，分别对应145、249和219个样本，以覆盖不同复杂度任务。数据来源包括真实用户查询与合成查询，MCP工具基于且慢平台，其服务器地址与工具架构可从且慢官方获取。

特点

FinMCP-Bench的特点在于其层次化场景设计与多维度评估框架。10个主要场景覆盖金融领域核心任务，33个子场景进一步细化任务粒度。三类样本类型——单工具、多工具及多轮交互——分别考察模型在简单调用、复杂协同与持续对话中的工具使用能力。数据集总量适中，但任务类型丰富，能够全面反映模型在真实金融应用中的工具调用表现。

使用方法

使用FinMCP-Bench时，研究者需加载包含613个样本的数据集，并根据任务类型（单工具、多工具或多轮交互）进行分组评估。模型需通过MCP协议调用且慢平台提供的金融工具，如基金查询或投资组合分析。评估过程可针对全部样本（MCP-All）或特定类型子集，以分析模型在不同复杂度下的性能差异。具体MCP服务器配置需参考且慢官方文档。

背景与挑战

背景概述

随着大型语言模型在金融领域的深度应用，其调用外部工具执行复杂任务的能力成为研究热点。FinMCP-Bench数据集由阿里巴巴通义千问团队于近期创建，依托点金平台，旨在系统评估大语言模型在金融场景中调用MCP工具的能力。该数据集精心设计了613个样本，覆盖10大主场景与33个子场景，包含单工具、多工具及多轮对话三种任务类型，为衡量模型在金融信息查询、投资分析等真实需求下的工具编排与执行效能提供了标准化测试基准，对推动金融智能体研究具有重要价值。

当前挑战

FinMCP-Bench所面临的挑战主要源于金融领域任务的高度复杂性与工具调用的协同需求。在领域问题层面，多工具与多轮对话场景要求模型不仅理解金融专业术语与用户意图，还需在动态对话中灵活编排多个工具的调用顺序与依赖关系，这对模型的推理与规划能力构成严峻考验。在构建过程中，如何确保613个样本覆盖金融场景的广度与深度，同时设计出包含真实与合成用户查询的多样化样本，并准确标注工具调用逻辑，是数据构建的核心难点，直接影响到评测的全面性与可靠性。

常用场景

经典使用场景

在金融科技与自然语言处理交叉的前沿领域，FinMCP-Bench数据集被设计用于系统评估大语言模型在金融场景中调用MCP（Model Context Protocol）工具的能力。该数据集涵盖10大主场景与33个子场景，包含613个精心构建的样本，分为单工具、多工具和多轮对话三种类型，能够全面检验模型在不同复杂度下的工具调用表现。研究者常利用该数据集测试模型在实时金融数据查询、资产配置建议、市场趋势分析等任务中的智能体行为，从而衡量其对金融领域专业工具的理解与执行能力。

衍生相关工作

围绕FinMCP-Bench已衍生出一系列具有影响力的研究工作，包括针对金融领域工具调用优化的指令微调方法、基于强化学习的多工具协作策略，以及面向多轮对话的上下文记忆增强技术。此外，该基准还催生了跨场景迁移学习的研究，探索如何将通用工具调用能力迁移至金融垂直领域。这些衍生工作不仅深化了对大模型工具调用机理的理解，也为后续构建更复杂的金融智能体系统提供了算法与评估的双重支撑，推动了金融AI从概念验证走向工程落地。

数据集最近研究