MultiFinBen-JapaneseOCR

Name: MultiFinBen-JapaneseOCR
Creator: The Fin AI
Published: 2026-04-17 08:43:09
License: 暂无描述

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/TheFinAI/MultiFinBen-JapaneseOCR

下载链接

链接失效反馈

官方服务：

资源简介：

JapaneseOCR 数据集包含来自日本金融厅（FSA）白皮书的图像，用于评估大型语言模型在将非结构化文档（如PDF和图像）转换为机器可读格式方面的能力，特别是在金融领域。该数据集适用于图像到文本的任务，评估指标为ROUGE-1。数据集结构包括两个字段：image（Base64编码的PNG图像，代表PDF的一页）和text（从PDF文件中提取的文本）。数据集创建过程涉及收集、拆分和转换日本金融厅的公开监管文件，并通过Python OCR包fitz生成真实文本。数据集不包含个人身份信息（PII），仅限于日语监管数据。使用该数据集时需注意其可能存在的偏见和局限性，如数据来源仅限于证券市场监管文件，可能缺乏其他金融文档类型的多样性。数据集采用Apache License 2.0许可。

提供机构：

The Fin AI

创建时间：

2026-04-17

原始信息汇总

MultiFinBen-JapaneseOCR 数据集概述

数据集基本信息

数据集名称: JapaneseOCR (MultiFinBen-JapaneseOCR)
发布者: The FinAI Team
许可协议: Apache License 2.0
主要语言: 日语 (ja)
数据规模: 10K < n < 100K
任务类别: 图像到文本 (image-to-text)
领域标签: 金融 (finance)

数据集内容与结构

数据摘要

该数据集包含源自日本金融厅（FSA）白皮书的图像，用于基准测试和评估大型语言模型在将非结构化文档（如PDF和图像）转换为机器可读格式方面的能力，特别是在转换任务更为复杂且具有价值的金融领域。

数据实例与字段

数据集包含13,320个训练样本。每个实例包含2个字段：

image: 监管文档的图像，每张图像代表PDF中的一页。数据类型为字符串，存储的是Base64编码的PNG图像。
text: 从监管文档中提取的真实文本。

数据文件

训练集路径: data/*.parquet
下载大小: 11,661,151,472 字节
数据集大小: 11,860,671,915 字节

数据集创建

来源与构建

数据来源: 来自日本金融厅（FSA）公开的证券市场监管文档。官方网址为：https://www.fsa.go.jp/en/。
构建过程: 下载PDF文件，通过API分割为每页一个文件，并转换为图像。
标注过程: 真实文本的标注是使用Python OCR包 fitz (PyMuPDF) 完成的。数据集源于公开可用的监管文档，未涉及外部标注团队。

个人与敏感信息

该数据集不包含任何个人身份信息（PII），严格专注于日语监管数据，不存在个人或敏感信息。

使用考量

支持的任务与评估

主要任务: 图像到文本转换。
评估指标: ROUGE-1。

社会影响

该数据集使AI模型能够从日语的扫描金融文档中提取结构化信息，支持日语地区金融、监管和透明度倡议的下游应用。通过将页面级PDF图像与准确的真实文本对齐，支持开发跨不同格式和语言工作的更公平、更具包容性的模型。

已知局限性与偏差

来源偏差: 源数据仅限于证券市场的监管文档，可能未能充分代表其他金融文档类型（如税务记录、银行对账单或私营公司报告），可能限制模型的泛化能力。
标注限制: 真实文本是使用Python包fitz (PyMuPDF) 提取的，在复杂布局中可能引入不准确性，可能影响训练质量和评估可靠性。
多样性限制: 虽然数据集涵盖监管文档，但可能在布局风格上缺乏足够的多样性（例如，手写笔记、非标准财务表格、嵌入式图表），这可能限制模型对结构化程度较低或非常规金融文档的泛化能力。

附加信息

维护者

Yueru He
Ruoyu Xiang
The FinAI Team

引用信息

如果使用此数据集，请引用： bibtex @misc{peng2025multifinbenmultilingualmultimodaldifficultyaware, title={MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation}, author={Xueqing Peng and Lingfei Qian and Yan Wang and Ruoyu Xiang and Yueru He and Yang Ren and Mingyang Jiang and Jeff Zhao and Huan He and Yi Han and Yun Feng and Yuechen Jiang and Yupeng Cao and Haohang Li and Yangyang Yu and Xiaoyu Wang and Penglei Gao and Shengyuan Lin and Keyi Wang and Shanshan Yang and Yilun Zhao and Zhiwei Liu and Peng Lu and Jerry Huang and Suyuchen Wang and Triantafillos Papadopoulos and Polydoros Giannouris and Efstathia Soufleri and Nuo Chen and Guojun Xiong and Zhiyang Deng and Yijia Zhao and Mingquan Lin and Meikang Qiu and Kaleb E Smith and Arman Cohan and Xiao-Yang Liu and Jimin Huang and Alejandro Lopez-Lira and Xi Chen and Junichi Tsujii and Jian-Yun Nie and Sophia Ananiadou and Qianqian Xie}, year={2025}, eprint={2506.14028}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.14028}, }

搜集汇总

数据集介绍

构建方式

在金融文档信息提取领域，日本金融厅（FSA）发布的证券市场监管白皮书构成了高质量的数据来源。该数据集的构建始于从FSA官方网站获取公开的PDF格式监管文件，随后通过API将每份文档按页面分割，并转换为图像格式。文本标注过程采用Python OCR工具包fitz（PyMuPDF）进行自动化提取，生成与每页图像对应的真实文本，从而形成图像-文本配对数据。这一流程确保了数据来源于权威机构，同时通过程序化处理实现了大规模、结构化的数据集构建。

特点

该数据集聚焦于日语金融文档，其核心特点在于专为评估大语言模型在复杂金融场景下的图像到文本转换能力而设计。数据集包含超过1.3万对图像与文本实例，每对数据对应监管白皮书中的一页，图像以Base64编码的PNG格式存储，文本则为从原始PDF中提取的真实内容。由于源数据仅限于证券市场监管文档，数据集在布局多样性和文档类型上存在一定局限性，可能未涵盖税单、银行对账单等其他金融文本形式，这为模型泛化能力提出了特定挑战。

使用方法

该数据集主要用于图像到文本转换任务的基准测试与模型评估，典型应用场景包括金融文档的信息提取与结构化处理。研究人员可将图像输入模型，通过生成的文本与数据集中提供的真实文本进行对比，使用ROUGE-1等指标量化模型性能。在使用过程中，需注意地面真实文本由自动化工具提取，可能在复杂版面中存在误差，建议结合人工校验以提升评估可靠性。数据集采用Apache 2.0许可，支持学术与商业用途，为日语金融文档处理模型的开发提供了标准化测试环境。

背景与挑战

背景概述

随着金融领域数字化转型的深入，非结构化文档的信息提取成为关键研究课题。MultiFinBen-JapaneseOCR数据集由FinAI团队于2025年创建，旨在为日语金融文档的OCR任务提供基准评估资源。该数据集基于日本金融厅（FSA）公开的白皮书，通过将PDF文档转换为图像与文本配对，专注于解决金融文档中复杂布局与多语言环境下的机器可读格式转换问题。其核心研究在于提升大语言模型在金融领域对非结构化文档的解析能力，为跨语言金融信息处理研究提供了重要数据支撑。

当前挑战

该数据集致力于解决金融文档图像到文本转换的领域挑战，包括复杂表格、混合排版及专业术语的准确识别。在构建过程中，数据源局限于证券市场监管文件，可能导致模型泛化性不足；同时，依赖PyMuPDF自动提取文本，在布局复杂的页面中可能引入噪声，影响标注质量。此外，数据缺乏手写体、非标准表单等多样布局，限制了模型应对实际金融文档多变场景的能力。

常用场景

经典使用场景

在金融文档处理领域，MultiFinBen-JapaneseOCR数据集为图像到文本转换任务提供了基准测试平台。该数据集源自日本金融厅发布的监管白皮书，将PDF页面转化为图像并配以精确的文本标注，常用于评估大型语言模型在复杂金融文档中的光学字符识别性能。研究人员利用这一数据集训练模型，以提升从非结构化文档中提取结构化信息的能力，尤其在处理日文金融文本时，其布局保留和语义准确性成为关键衡量标准。

实际应用

在实际应用中，MultiFinBen-JapaneseOCR数据集支持金融机构和监管机构自动化处理海量日文金融文档，如证券市场监管报告和白皮书。基于该数据集训练的模型能够高效地将扫描文档或PDF图像转换为机器可读格式，辅助合规审查、风险分析和数据归档等工作。这不仅提升了金融信息处理的效率，还增强了跨语言金融数据的透明度和可访问性，为日本及全球金融科技解决方案提供了技术基础。

衍生相关工作

围绕MultiFinBen-JapaneseOCR数据集，衍生出多项经典研究工作，包括基于多模态Transformer的金融文档理解模型、针对日文OCR的布局保留算法以及跨语言金融信息提取框架。这些工作通常整合该数据集进行模型训练与评估，进一步推动了如MultiFinBen基准的整体发展，并在学术文献中形成了对金融文档多语言、多模态处理的系统性探索，为后续研究提供了方法论和性能比较的参考依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集