MULTIFINBEN

Name: MULTIFINBEN
Creator: The FinAI
Published: 2025-06-20 03:27:14
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/TheFinAI

下载链接

链接失效反馈

官方服务：

资源简介：

MULTIFINBEN是一个面向全球金融领域的多语言、多模态、难度感知的评估基准，旨在评估大型语言模型（LLM）在文本、视觉和音频等不同模态以及单语、双语和多语等不同语言环境下的性能。该数据集包含34个不同的数据集，涵盖英语、中文、日语、西班牙语和希腊语五种语言，并提供了一个动态的、难度感知的选择机制，以保持评估基准的紧凑性和平衡性。MULTIFINBEN旨在推动金融研究和应用领域的透明、可重复和包容性进展。

提供机构：

The FinAI

创建时间：

2025-06-17

搜集汇总

数据集介绍

构建方式

MULTIFINBEN数据集的构建采用了多模态、多语言和难度感知的设计理念。数据来源包括真实的财务报告、新闻文章以及金融文档的视觉和音频内容。构建过程中，专家团队参与了数据的筛选、问题的设计和验证，确保了数据的高质量和领域相关性。特别引入了PolyFiQA-Easy和PolyFiQA-Expert两个多语言金融问答任务，以及首个OCR嵌入的视觉-文本金融问答任务。通过动态难度感知选择机制，确保了数据集的平衡性和挑战性。

特点

MULTIFINBEN数据集具有多模态、多语言和难度分层的显著特点。它覆盖了文本、视觉和音频三种模态，支持英语、中文、日语、西班牙语和希腊语五种语言。数据集包含34个不同的任务，分为三个难度等级，能够全面评估模型在金融领域的跨模态、跨语言和复杂推理能力。此外，数据集还引入了首个多语言金融问答任务和OCR金融问答任务，填补了现有金融数据集的空白。

使用方法

MULTIFINBEN数据集的使用方法包括模型评估和任务测试。用户可以通过Hugging Face平台访问数据集，利用提供的评估脚本对模型进行多模态、多语言和难度分层的全面测试。数据集适用于金融领域的自然语言处理、视觉理解和音频处理任务。研究人员可以通过该数据集评估模型在复杂金融场景下的表现，并推动多模态和多语言金融AI的发展。具体的使用指南和代码可在GitHub仓库中找到。

背景与挑战

背景概述

MULTIFINBEN是由The FinAI等机构于2025年推出的首个多语言、多模态金融领域基准测试，旨在解决现有金融基准测试在语言单一性和模态局限性方面的不足。该数据集由Xueqing Peng等数十位跨学科研究者联合构建，覆盖英语、中文、日语、西班牙语和希腊语五种语言，整合文本、视觉和音频三种模态，包含34个子数据集和七类核心金融NLP任务。其创新性地引入了混合语言推理任务PolyFiQA和首个金融OCR问答任务，通过动态难度感知机制筛选最具区分度的测试样本，为评估大语言模型在真实金融场景中的跨模态、跨语言推理能力提供了系统化框架。作为金融NLP领域最具综合性的评估基准，MULTIFINBEN推动了金融AI向全球化、多模态方向发展。

当前挑战

MULTIFINBEN面临双重挑战：在领域问题层面，需解决混合语言金融文档的联合推理、视觉文本的跨模态解析以及金融音频的语义理解等复杂任务，现有模型在跨语言金融QA任务中平均准确率仅7.5%；在构建过程中，需克服低资源语言（如希腊语）的语料稀缺性、金融PDF文档的结构化转换难题，以及多模态数据对齐问题。特别在PolyFiQA构建时，要求专家团队进行57小时的多阶段标注验证，确保混合语言问题的领域忠实度。此外，动态难度机制需平衡34个数据集的模态-语言-任务三维表征，避免简单数据集对评估结果的干扰。

常用场景

经典使用场景

MULTIFINBEN作为首个多语言、多模态的金融领域基准测试，其经典使用场景主要涵盖跨语言金融文档理解、多模态信息融合及复杂金融推理任务。该数据集通过整合文本、视觉（图表/表格）和音频（财报电话会议）三种模态数据，支持对大型语言模型在真实金融环境下的综合能力评估。典型应用包括：基于混合语言输入的财务报告分析、跨文档因果关系推断、以及结合OCR技术的金融表格解析等场景，为全球金融机构提供标准化模型性能测试框架。

衍生相关工作

该数据集已衍生出三类标志性研究：其一为跨模态金融理解框架（如Open-FinLLMs），通过融合文本、视觉特征提升表格数据推理性能；其二诞生了首个希腊语金融大模型Plutus，其训练直接采用数据集中的GRFinNUM等低资源语言任务；其三催生了难度感知评估方法论，被后续CFinBench等基准采纳为标准化筛选流程。特别在视觉金融领域，基于EnglishOCR构建的文档结构化流水线已达到90%以上的ROUGE-1分数，显著推进了金融PDF智能化处理进程。

数据集最近研究