MULTIFINBEN

Name: MULTIFINBEN
Creator: The FinAI
Published: 2025-06-17 06:01:49
License: 暂无描述

arXiv2025-06-17 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/TheFinAI/PolyFiQA-Easy https://huggingface.co/datasets/TheFinAI/PolyFiQA-Expert https://huggingface.co/datasets/TheFinAI/MultiFinBen-SpanishOCR https://huggingface.co/datasets/TheFinAI/MultiFinBen-EnglishOCR

下载链接

链接失效反馈

官方服务：

资源简介：

MULTIFINBEN是一个面向全球金融领域的多语言和多模态基准，旨在评估大型语言模型在文本、视觉和音频等多种模态以及单语、双语和多语等语言环境下的能力。该数据集包含了34个不同的数据集，涵盖了英语、中文、日语、西班牙语和希腊语五种语言，并针对信息提取、文本分析、问答、文本生成、风险管理、预测和决策等七个任务类别进行了分类。MULTIFINBEN的创建过程包括引入了两个新的任务（PolyFiQA-Easy和PolyFiQA-Expert）以及两个OCR嵌入的视觉-文本数据集，并通过动态、难度感知的选择机制来确保评估的平衡性和紧凑性。该数据集旨在推动金融领域研究的透明性、可重复性和包容性。

MULTIFINBEN is a multilingual and multimodal benchmark for the global financial domain, designed to evaluate the capabilities of large language models (LLMs) across diverse modalities including text, vision and audio, as well as various linguistic settings such as monolingual, bilingual and multilingual scenarios. This benchmark comprises 34 distinct datasets spanning five languages: English, Chinese, Japanese, Spanish and Greek, and is categorized into seven task categories, namely information extraction, text analysis, question answering, text generation, risk management, prediction and decision-making. The development of MULTIFINBEN includes the introduction of two novel tasks (PolyFiQA-Easy and PolyFiQA-Expert) and two OCR-embedded visual-text datasets, as well as a dynamic, difficulty-aware selection mechanism to ensure the balance and compactness of the evaluation. This benchmark aims to promote transparency, reproducibility and inclusivity in financial domain research.

提供机构：

The FinAI

创建时间：

2025-06-17

原始信息汇总

数据集概述

基本信息

数据集名称: EnglishOCR
许可证: Apache License 2.0
语言: 英语
领域: 金融
任务类别: 图像到文本
规模类别: 10K<n<100K

数据集结构

特征:
- image: 字符串类型，Base64编码的PNG图像
- text: 字符串类型，从PDF文件中提取的文本
数据分割:
- train: 7961个样本，大小3816064970字节

数据集摘要

EnglishOCR数据集包含来自SEC EDGAR公司文件的监管文档图像。该数据集用于评估大型语言模型在将非结构化文档（如PDF和图像）转换为机器可读格式方面的能力，特别是在金融领域。

支持的任务

任务: 图像到文本
评估指标: ROUGE-1

数据集创建

数据来源: SEC EDGAR系统的公司文件
数据处理: 文件下载为HTML格式，转换为PDF版本，分割并转换为图像，提取文本用于匹配HTML块和校正图像
注释: 数据集来源于公开可用的公司文件，未进行额外的手动注释

注意事项

社会影响: 支持从扫描的金融文档中提取结构化信息，促进透明度和可访问性
偏见: 数据仅限于公司文件，可能无法代表其他金融文档类型
限制: 匹配过程可能引入不准确性，数据集可能缺乏多样化的布局样式

引用信息

bibtex @misc{peng2025multifinbenmultilingualmultimodaldifficultyaware, title={MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation}, author={Xueqing Peng et al.}, year={2025}, eprint={2506.14028}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.14028}, }

搜集汇总

数据集介绍

构建方式

MULTIFINBEN的构建采用了专家参与的多阶段流程，通过整合真实财务报告和多语言新闻源构建核心数据集。首先从SEC等权威渠道收集10-K和10-Q财务文件，提取三大核心报表（综合收益表、资产负债表和现金流量表）作为基础数据。针对五种语言（英语、中文、日语、西班牙语和希腊语）的新闻内容，采用半自动化流程生成专业财经报道，并通过金融分析师团队进行多轮验证。创新性地设计了动态难度感知机制，基于GPT-4o和LLaMA3.1-70B-Instruct的标准化表现将任务划分为易、中、难三个层级，并保留每个模态-语言-任务组合中最具区分度的数据集。

特点

作为首个多模态多语言的金融基准测试，MULTIFINBEN涵盖文本、视觉和音频三种模态，支持单语、双语和多语言三种语言环境。其核心创新包括PolyFiQA-Easy/Expert任务——要求模型对混合语言输入的财务报告进行联合推理，以及首个OCR嵌入式视觉文本数据集EnglishOCR/SpanishOCR。数据集包含34个独立子集，覆盖七大类金融NLP任务，通过结构化分层设计确保评估的全面性和挑战性。特别设计的难度梯度（31.24%易任务准确率 vs 6.63%难任务准确率）有效揭示了模型能力边界。

使用方法

使用MULTIFINBEN时需要遵循其模态-语言-任务的评估框架。对于文本任务，需加载对应的财务报告和新闻语料，按照预设提示模板输入问题；视觉任务要求模型处理扫描的财务PDF图像并生成结构化HTML；音频任务涉及收益电话会议记录的转录和摘要生成。评估采用任务专属指标（如ROUGE-1、WER、MCC等），建议同时测试模型在不同难度层级的表现以全面评估能力。基准提供标准化接口支持LM Evaluation Harness，所有数据集和评估代码已在HuggingFace开源，包含详细的使用说明和示例。

背景与挑战

背景概述

MULTIFINBEN是由The FinAI等机构于2025年推出的首个多语言、多模态的金融领域基准测试数据集。该数据集由Xueqing Peng等学者主导开发，旨在解决现有金融基准测试在语言多样性和模态丰富性方面的局限性。数据集覆盖了文本、视觉和音频三种模态，以及英语、中文、日语、西班牙语和希腊语五种语言，包含34个子数据集和7类核心金融NLP任务。MULTIFINBEN的创新性体现在其引入了首个多语言金融理解任务PolyFiQA和首个OCR嵌入式金融视觉问答任务，填补了全球金融领域缺乏综合性评估工具的空白。该数据集通过动态难度感知机制，构建了包含简单、中等和困难三个层级的结构化评估体系，为金融大语言模型的跨模态、跨语言能力评估提供了系统框架。

当前挑战

MULTIFINBEN面临的挑战主要体现在两个方面：领域问题挑战方面，该数据集需要解决金融领域特有的多语言混合输入理解、跨模态信息融合以及复杂金融推理等难题，特别是处理真实场景中常见的混合语言财务报告和多模态金融文档分析；构建过程挑战方面，研究人员需克服低资源语言数据稀缺、多模态数据对齐困难、金融领域专业标注质量保障等障碍，尤其在平衡不同语言和模态的数据代表性时面临样本不均衡问题。此外，确保OCR任务中财务文档的结构化信息精确提取，以及音频模态中专业金融术语的语音识别准确性，都是数据集构建过程中的关键技术挑战。

常用场景

经典使用场景

MULTIFINBEN作为首个多语言、多模态的金融领域基准测试，其经典使用场景主要集中在评估大型语言模型（LLMs）在跨语言、跨模态金融任务中的综合表现。该数据集通过整合文本、视觉和音频三种模态，以及涵盖英语、中文、日语、西班牙语和希腊语五种语言，为研究者提供了一个全面的测试平台。典型场景包括多语言金融问答（如PolyFiQA-Easy和PolyFiQA-Expert任务）、视觉文档OCR解析（如EnglishOCR和SpanishOCR任务）以及金融音频内容理解（如MDRM-test和FinAudioSum任务）。这些场景模拟了真实金融环境中信息处理的复杂性，例如跨国企业需同时分析多语言财报、图表和电话会议录音。

实际应用

在实际金融应用中，MULTIFINBEN支持的场景包括：1) 全球投研分析，如自动解析中英双语年报并提取关键财务指标；2) 跨境监管合规，通过OCR技术将西班牙语金融PDF转换为结构化数据；3) 智能投顾服务，基于多语言新闻和财报音频生成投资建议。例如，TableBench任务可直接应用于财报表格数据提取，而FinAudioSum能优化 earnings call 的自动摘要生成。这些应用显著提升了金融机构处理异构金融数据的效率，同时暴露了当前模型在希腊语等低资源语言和复杂跨模态推理中的瓶颈。

衍生相关工作

该数据集已衍生出多个标志性研究方向：1) 多语言金融模型优化，如基于PolyFiQA开发的XuanYuan-FinX1模型；2) 跨模态对齐技术，如Qwen-VL-Max在TableBench任务中探索视觉-文本联合表征；3) 难度感知训练框架，借鉴其分层评估机制的工作如Flag-Trader强化学习交易系统。此外，其构建方法论影响了CFinBench等后续基准的设计，而发布的Leaderboard（含MOF开放度标签）推动了金融AI的透明评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集