XFINBENCH

Name: XFINBENCH
Creator: 新加坡管理大学计算与信息系统学院, 复旦大学可信嵌入式人工智能研究所
Published: 2025-08-20 23:23:35
License: 暂无描述

arXiv2025-08-20 更新2025-11-25 收录

下载链接：

https://github.com/Zhihan72/XFinBench

下载链接

链接失效反馈

官方服务：

资源简介：

XFINBENCH是一个包含4,235个示例的新颖基准数据集，旨在评估大型语言模型（LLM）在解决复杂、知识密集型金融问题方面的能力。该数据集涵盖了多样化的研究生级别金融主题，并具有多模态上下文。XFINBENCH识别了LLMs在复杂金融问题解决中的五个核心能力，包括术语理解、时间推理、未来预测、情景规划和数值建模。通过对18个领先模型进行广泛实验，结果表明，尽管LLMs在术语理解方面取得了与人类专家相当的性能，但在更高级的能力，如时间推理和情景规划方面，尤其是在视觉上下文中，仍然显著落后于人类专家。此外，为了进一步探究领域特定知识如何提升LLMs在复杂金融问题上的性能，我们还开发了一个包含3,032个金融术语的知识库，并通过人工标注将这些术语与金融问题相结合。最后，我们对XFINBENCH进行了全面的质量验证，以确保数据集的准确性和可靠性。

提供机构：

新加坡管理大学计算与信息系统学院, 复旦大学可信嵌入式人工智能研究所

创建时间：

2025-08-20

搜集汇总

数据集介绍

构建方式

在金融领域复杂问题求解的背景下，XFINBENCH数据集的构建采用了多阶段精细化流程。该数据集从三本研究生级别金融教材中提取课后习题及其解答手册作为初始数据源，通过光学字符识别技术将PDF文档转化为结构化文本。为确保问题复杂性与知识密集性，人工标注团队对每个问题进行了金融术语关联与核心能力分类标注，并构建了包含3,032个专业术语的知识库。为进一步提升评估效果，采用GPT-4o模型在生成-验证框架下对开放式问题进行标准化重构，最终通过专家质量验证流程确保4,235个样本的准确性与完整性。

特点

XFINBENCH数据集展现出三大显著特征：在内容维度上覆盖公司金融、衍生品定价和宏观金融市场等核心领域，问题均源自研究生教材确保专业深度；在能力评估层面创新性地定义了术语理解、时序推理、未来预测、场景规划和数值建模五大核心能力，全面衡量模型对复杂金融问题的解析能力；在模态设计上突破传统文本局限，融合了146个图像语境问题和330个表格数据问题，真实还原金融实务中的多模态信息处理场景。

使用方法

该数据集支持三种标准化评估任务：陈述判断任务检验模型对金融概念的理解深度，多项选择任务评估战略决策与预测能力，金融计算任务测试数学建模与量化分析能力。研究实践中可采用思维链提示与程序化推理两种方法，特别在数值计算中允许5%误差容限的精确度评估。数据集严格划分为测试集与验证集，测试集答案不公开以防止数据污染，同时配套的知识库支持通过BM25与语义检索等增强策略进行领域知识注入分析。

背景与挑战

背景概述

XFINBENCH作为金融领域复杂问题求解与推理的基准数据集，由新加坡管理大学与复旦大学的研究团队于2024年联合构建。该数据集聚焦于评估大语言模型在知识密集型金融任务中的综合能力，涵盖术语理解、时序推理、未来预测、情景规划及数值建模五大核心维度。通过整合研究生级教材的多模态语境问题，XFINBENCH填补了现有金融数据集在高级推理能力与多模态数据处理方面的空白，为金融人工智能研究提供了严谨的评估框架。

当前挑战

XFINBENCH针对的领域挑战在于解决复杂金融问题所需的深层推理能力，包括跨周期数据分析、动态场景模拟及多模态信息融合。构建过程中面临双重挑战：其一需确保金融问题的真实性与复杂性，通过人工标注与生成-验证框架平衡数据质量与规模；其二涉及多模态数据对齐，需精准处理文本、表格与图像信息的语义关联，同时维持数学公式与专业术语的精确表达。

常用场景

经典使用场景

在金融科技与人工智能交叉领域，XFINBENCH作为评估大语言模型解决复杂金融问题能力的基准工具，其经典应用场景聚焦于研究生级金融教材中的多模态问题求解。该数据集通过4235个涵盖公司金融、衍生品定价、货币政策等核心主题的案例，系统检验模型在术语理解、时间推理、未来预测、情景规划及数值建模五维能力上的表现，为金融机构智能化转型提供关键评估框架。

解决学术问题

XFINBENCH有效解决了传统金融数据集在复杂推理与多模态数据处理方面的局限性。通过构建包含图表、时间序列与文本的混合模态问题，该数据集推动学术界突破大语言模型在时序推理与战略规划等高级认知任务中的瓶颈，为构建具备金融专业思维能力的可信人工智能奠定理论基础，显著提升了金融自然语言处理研究的严谨性与实用性。

衍生相关工作

基于XFINBENCH的评估范式，衍生出多项金融人工智能创新研究。例如在知识增强推理方向，研究者构建了包含3032个专业术语的知识库以提升模型领域认知；在错误分析领域，系统揭示了模型在数值计算舍入误差与视觉上下文理解盲区等关键问题，这些成果直接推动了FinEval、BizBench等后续金融基准的优化迭代，形成持续演进的金融智能评估生态系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集