FinGAIA
收藏arXiv2025-07-23 更新2025-07-25 收录
下载链接:
https://github.com/SUFEAIFLM-Lab/FinGAIA
下载链接
链接失效反馈官方服务:
资源简介:
FinGAIA是一个专门为评估AI代理在金融领域的实际能力而设计的端到端基准。它包含407个精心设计的任务,涵盖七个主要金融子领域:证券、基金、银行、保险、期货、信托和资产管理。这些任务分为三个层次:基础业务分析、资产决策支持和战略风险管理,以反映不同的认知复杂性和操作要求。数据集是通过与金融领域专家的广泛讨论和实际金融数据的结构化构建的,以确保其真实性、相关性和评估效用。FinGAIA旨在提供一个结构化、多样化和情境化的基准,以评估智能代理在金融领域的专业能力,包括网络浏览、文档处理、多模态理解、编码和计算能力。
FinGAIA is an end-to-end benchmark specifically designed for evaluating the practical capabilities of AI Agents in the financial domain. It comprises 407 meticulously crafted tasks spanning seven core financial subfields: securities, funds, banking, insurance, futures, trusts, and asset management. These tasks are categorized into three hierarchical levels: basic business analysis, asset decision support, and strategic risk management, which reflect varying degrees of cognitive complexity and operational requirements. The dataset is constructed via extensive consultations with financial domain experts and the structuring of real-world financial data, ensuring its authenticity, relevance, and evaluation utility. FinGAIA aims to provide a structured, diverse, and contextualized benchmark to assess the professional competencies of AI Agents in the financial sector, encompassing web browsing, document processing, multimodal understanding, coding, and computational capabilities.
提供机构:
上海财经大学
创建时间:
2025-07-23
搜集汇总
数据集介绍

构建方式
FinGAIA数据集的构建基于金融领域的实际业务场景,通过与金融专家的深入讨论和严格的专业筛选,确保了数据的真实性和相关性。数据集共包含407项任务,涵盖证券、基金、银行、保险、期货、信托和资产管理七大金融子领域。每个任务均经过四名金融专家的多维度审核,确保其逻辑严谨性和行业实践性。数据来源包括法律法规文本、公开市场交易数据、金融新闻及产品关键指标等,所有数据均经过版权验证和来源标注。
特点
FinGAIA数据集具有多层次的任务设计,分为基础业务分析、资产决策支持和战略风险管理三个难度层级,分别对应不同的认知复杂度和操作要求。数据集不仅覆盖了金融领域的广泛子领域,还通过多工具协作和多步骤执行的任务设计,全面评估AI代理的专业能力。此外,数据集还提供了丰富的错误分析模式,如跨模态对齐不足、金融术语偏差等,为未来研究提供了重要方向。
使用方法
FinGAIA数据集的使用方法包括零样本提示评估和人工审核相结合的方式。对于闭源代理,通过手动操作进行交互测试;对于支持API调用的框架,则通过统一API接口批量提交测试问题。评估过程中严格遵循零样本提示范式,仅提供问题文本和必要附件,不提供任何示例或指导。结果验证采用人工审核为主、LLM-as-Judge自动解释为辅的方式,确保评估结果的准确性和一致性。
背景与挑战
背景概述
FinGAIA是由上海财经大学和复旦大学的研究团队于2025年推出的首个面向金融领域的端到端AI智能体评估基准。该数据集包含407个精心设计的任务,涵盖证券、基金、银行、保险、期货、信托和资产管理七大金融子领域,并按照业务深度划分为基础业务分析、资产决策支持和战略风险管理三个层级。FinGAIA的创建填补了金融领域智能体系统性评估的空白,为衡量AI智能体在复杂金融场景下的专业能力提供了科学严谨的测评体系。
当前挑战
FinGAIA面临的核心挑战体现在两个维度:领域问题层面,现有AI智能体在跨模态对齐缺陷、金融术语偏差和操作流程认知障碍等方面表现欠佳,最佳模型准确率仅48.9%,较金融专家仍有35个百分点的差距;数据构建层面,需解决多工具协作验证、动态金融环境模拟以及专业标注一致性等难题,每个任务平均耗时90分钟进行专家级设计与验证,确保任务真实反映金融实务场景的复杂性。
常用场景
经典使用场景
FinGAIA数据集在金融领域AI代理评估中具有广泛的应用场景。该数据集通过精心设计的407项任务,覆盖了证券、基金、银行、保险、期货、信托和资产管理等七大金融子领域,能够全面评估AI代理在金融业务中的多工具协作和多步骤执行能力。在金融科技研究和实践中,FinGAIA常被用于测试和比较不同AI代理在零样本设置下的表现,为金融智能化提供客观的评估标准。
解决学术问题
FinGAIA数据集有效解决了金融领域AI代理评估中的关键学术问题。首先,它填补了现有金融基准测试在系统性评估多文件、多工具协作方面的空白;其次,通过分层任务设计(基础业务分析、资产决策支持和战略风险管理),该数据集能够全面考察AI代理的金融知识理解、工具使用和复杂推理能力;最后,FinGAIA揭示了AI代理在金融领域的五大常见失败模式,为后续研究指明了方向。
衍生相关工作
FinGAIA数据集已经衍生出多个相关研究工作。基于该数据集,研究者开发了针对特定金融子领域的专项评估方法;部分团队利用FinGAIA的任务设计思路,构建了更细粒度的金融AI测试集;此外,数据集揭示的五大错误模式也催生了一系列改进金融AI代理的研究。这些工作共同推动了金融领域AI评估体系的完善。
以上内容由遇见数据集搜集并总结生成



