MULTIFINBEN

Name: MULTIFINBEN
Creator: The FinAI
Published: 2025-06-20 03:27:14
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/TheFinAI

下载链接

链接失效反馈

官方服务：

资源简介：

MULTIFINBEN是一个面向全球金融领域的多语言、多模态、难度感知的评估基准，旨在评估大型语言模型（LLM）在文本、视觉和音频等不同模态以及单语、双语和多语等不同语言环境下的性能。该数据集包含34个不同的数据集，涵盖英语、中文、日语、西班牙语和希腊语五种语言，并提供了一个动态的、难度感知的选择机制，以保持评估基准的紧凑性和平衡性。MULTIFINBEN旨在推动金融研究和应用领域的透明、可重复和包容性进展。

MULTIFINBEN is a multilingual, multimodal, difficulty-aware evaluation benchmark targeting the global financial domain. It aims to evaluate the performance of Large Language Models (LLMs) across diverse modalities including text, vision and audio, as well as varying linguistic scenarios such as monolingual, bilingual and multilingual settings. This benchmark encompasses 34 distinct datasets covering five languages: English, Chinese, Japanese, Spanish and Greek, and features a dynamic, difficulty-aware selection mechanism to maintain the compactness and balance of the evaluation benchmark. MULTIFINBEN is designed to advance transparent, reproducible and inclusive progress in the field of financial research and applications.

提供机构：

The FinAI

创建时间：

2025-06-17

搜集汇总

数据集介绍

构建方式

MULTIFINBEN数据集的构建采用了多模态、多语言和难度感知的设计理念。数据来源包括真实的财务报告、新闻文章以及金融文档的视觉和音频内容。构建过程中，专家团队参与了数据的筛选、问题的设计和验证，确保了数据的高质量和领域相关性。特别引入了PolyFiQA-Easy和PolyFiQA-Expert两个多语言金融问答任务，以及首个OCR嵌入的视觉-文本金融问答任务。通过动态难度感知选择机制，确保了数据集的平衡性和挑战性。

特点

MULTIFINBEN数据集具有多模态、多语言和难度分层的显著特点。它覆盖了文本、视觉和音频三种模态，支持英语、中文、日语、西班牙语和希腊语五种语言。数据集包含34个不同的任务，分为三个难度等级，能够全面评估模型在金融领域的跨模态、跨语言和复杂推理能力。此外，数据集还引入了首个多语言金融问答任务和OCR金融问答任务，填补了现有金融数据集的空白。

使用方法

MULTIFINBEN数据集的使用方法包括模型评估和任务测试。用户可以通过Hugging Face平台访问数据集，利用提供的评估脚本对模型进行多模态、多语言和难度分层的全面测试。数据集适用于金融领域的自然语言处理、视觉理解和音频处理任务。研究人员可以通过该数据集评估模型在复杂金融场景下的表现，并推动多模态和多语言金融AI的发展。具体的使用指南和代码可在GitHub仓库中找到。

背景与挑战

背景概述

MULTIFINBEN是由The FinAI等机构于2025年推出的首个多语言、多模态金融领域基准测试，旨在解决现有金融基准测试在语言单一性和模态局限性方面的不足。该数据集由Xueqing Peng等数十位跨学科研究者联合构建，覆盖英语、中文、日语、西班牙语和希腊语五种语言，整合文本、视觉和音频三种模态，包含34个子数据集和七类核心金融NLP任务。其创新性地引入了混合语言推理任务PolyFiQA和首个金融OCR问答任务，通过动态难度感知机制筛选最具区分度的测试样本，为评估大语言模型在真实金融场景中的跨模态、跨语言推理能力提供了系统化框架。作为金融NLP领域最具综合性的评估基准，MULTIFINBEN推动了金融AI向全球化、多模态方向发展。

当前挑战

MULTIFINBEN面临双重挑战：在领域问题层面，需解决混合语言金融文档的联合推理、视觉文本的跨模态解析以及金融音频的语义理解等复杂任务，现有模型在跨语言金融QA任务中平均准确率仅7.5%；在构建过程中，需克服低资源语言（如希腊语）的语料稀缺性、金融PDF文档的结构化转换难题，以及多模态数据对齐问题。特别在PolyFiQA构建时，要求专家团队进行57小时的多阶段标注验证，确保混合语言问题的领域忠实度。此外，动态难度机制需平衡34个数据集的模态-语言-任务三维表征，避免简单数据集对评估结果的干扰。

常用场景

经典使用场景

MULTIFINBEN作为首个多语言、多模态的金融领域基准测试，其经典使用场景主要涵盖跨语言金融文档理解、多模态信息融合及复杂金融推理任务。该数据集通过整合文本、视觉（图表/表格）和音频（财报电话会议）三种模态数据，支持对大型语言模型在真实金融环境下的综合能力评估。典型应用包括：基于混合语言输入的财务报告分析、跨文档因果关系推断、以及结合OCR技术的金融表格解析等场景，为全球金融机构提供标准化模型性能测试框架。

衍生相关工作

该数据集已衍生出三类标志性研究：其一为跨模态金融理解框架（如Open-FinLLMs），通过融合文本、视觉特征提升表格数据推理性能；其二诞生了首个希腊语金融大模型Plutus，其训练直接采用数据集中的GRFinNUM等低资源语言任务；其三催生了难度感知评估方法论，被后续CFinBench等基准采纳为标准化筛选流程。特别在视觉金融领域，基于EnglishOCR构建的文档结构化流水线已达到90%以上的ROUGE-1分数，显著推进了金融PDF智能化处理进程。

数据集最近研究