DianJin/FinMCP-Bench
收藏Hugging Face2025-10-14 更新2025-10-18 收录
下载链接:
https://hf-mirror.com/datasets/DianJin/FinMCP-Bench
下载链接
链接失效反馈官方服务:
资源简介:
FinMCP-Bench是一个金融场景下用于评估大型语言模型调用MCP工具能力的全面基准数据集,包含613个样本,分为10个主要场景和33个子场景,涵盖真实与合成用户查询,包含单工具、多工具和多轮对话三种样本类型。
FinMCP-Bench is a comprehensive benchmark dataset for evaluating the ability of large language models to invoke MCP tools in financial scenarios, containing 613 samples across 10 main scenarios and 33 sub-scenarios, covering both real and synthetic user queries, and including three sample types: single tool, multi-tool, and multi-turn.
提供机构:
DianJin
搜集汇总
数据集介绍

构建方式
FinMCP-Bench由DianJin团队构建,旨在系统评估大语言模型在金融场景中调用MCP工具的能力。该数据集涵盖10个主要场景与33个子场景,包含613个样本,样本类型分为单工具、多工具和多轮交互三类,分别对应145、249和219个样本,以覆盖不同复杂度任务。数据来源包括真实用户查询与合成查询,MCP工具基于且慢平台,其服务器地址与工具架构可从且慢官方获取。
特点
FinMCP-Bench的特点在于其层次化场景设计与多维度评估框架。10个主要场景覆盖金融领域核心任务,33个子场景进一步细化任务粒度。三类样本类型——单工具、多工具及多轮交互——分别考察模型在简单调用、复杂协同与持续对话中的工具使用能力。数据集总量适中,但任务类型丰富,能够全面反映模型在真实金融应用中的工具调用表现。
使用方法
使用FinMCP-Bench时,研究者需加载包含613个样本的数据集,并根据任务类型(单工具、多工具或多轮交互)进行分组评估。模型需通过MCP协议调用且慢平台提供的金融工具,如基金查询或投资组合分析。评估过程可针对全部样本(MCP-All)或特定类型子集,以分析模型在不同复杂度下的性能差异。具体MCP服务器配置需参考且慢官方文档。
背景与挑战
背景概述
随着大型语言模型在金融领域的深度应用,其调用外部工具执行复杂任务的能力成为研究热点。FinMCP-Bench数据集由阿里巴巴通义千问团队于近期创建,依托点金平台,旨在系统评估大语言模型在金融场景中调用MCP工具的能力。该数据集精心设计了613个样本,覆盖10大主场景与33个子场景,包含单工具、多工具及多轮对话三种任务类型,为衡量模型在金融信息查询、投资分析等真实需求下的工具编排与执行效能提供了标准化测试基准,对推动金融智能体研究具有重要价值。
当前挑战
FinMCP-Bench所面临的挑战主要源于金融领域任务的高度复杂性与工具调用的协同需求。在领域问题层面,多工具与多轮对话场景要求模型不仅理解金融专业术语与用户意图,还需在动态对话中灵活编排多个工具的调用顺序与依赖关系,这对模型的推理与规划能力构成严峻考验。在构建过程中,如何确保613个样本覆盖金融场景的广度与深度,同时设计出包含真实与合成用户查询的多样化样本,并准确标注工具调用逻辑,是数据构建的核心难点,直接影响到评测的全面性与可靠性。
常用场景
经典使用场景
在金融科技与自然语言处理交叉的前沿领域,FinMCP-Bench数据集被设计用于系统评估大语言模型在金融场景中调用MCP(Model Context Protocol)工具的能力。该数据集涵盖10大主场景与33个子场景,包含613个精心构建的样本,分为单工具、多工具和多轮对话三种类型,能够全面检验模型在不同复杂度下的工具调用表现。研究者常利用该数据集测试模型在实时金融数据查询、资产配置建议、市场趋势分析等任务中的智能体行为,从而衡量其对金融领域专业工具的理解与执行能力。
衍生相关工作
围绕FinMCP-Bench已衍生出一系列具有影响力的研究工作,包括针对金融领域工具调用优化的指令微调方法、基于强化学习的多工具协作策略,以及面向多轮对话的上下文记忆增强技术。此外,该基准还催生了跨场景迁移学习的研究,探索如何将通用工具调用能力迁移至金融垂直领域。这些衍生工作不仅深化了对大模型工具调用机理的理解,也为后续构建更复杂的金融智能体系统提供了算法与评估的双重支撑,推动了金融AI从概念验证走向工程落地。
数据集最近研究
最新研究方向
在金融科技与人工智能深度融合的浪潮中,大语言模型(LLM)的自主工具调用能力成为突破传统金融分析边界的关键。近期,DianJin团队提出的FinMCP-Bench基准测试应运而生,精准聚焦于评估LLM在金融场景下通过模型上下文协议(MCP)调用工具的能力。该数据集精心设计了613个样本,覆盖10大主场景与33个子场景,囊括单工具、多工具及多轮交互三种复杂度层级,真实模拟了从基础查询到复杂金融决策的完整链路。这一前沿研究方向不仅为量化金融、智能投顾等热点领域提供了标准化的能力度量标尺,更预示着AI Agent在金融数据挖掘、风险预警及自动化交易中的实用化进程将迈入精准验证阶段,其深远影响在于推动金融大模型从“能说”向“会做”的实质性跨越。
以上内容由遇见数据集搜集并总结生成



