MDPBench

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/Delores-Lin/MDPBench

下载链接

链接失效反馈

官方服务：

资源简介：

MDPBench 是首个针对多语言数字文档和拍摄文档解析的基准测试数据集。该数据集旨在解决当前文档解析技术主要局限于少数主流语言的清洁、数字格式良好文档的问题。MDPBench 包含 3,400 张文档图像，涵盖 17 种语言（简体中文、繁体中文、英语、阿拉伯语、德语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、葡萄牙语、俄语、泰语、越南语），包含多种文字体系和不同的拍摄条件。所有数据均通过专家模型标注、人工校正和人工验证的严格流程进行高质量标注。为确保公平比较和防止数据泄露，数据集分为公开和私有两种评估分割。评估结果显示，现有模型在非拉丁文字和真实拍摄文档上的性能存在显著差异，特别是在开源模型上表现更为明显。该数据集为构建更具包容性、可部署的文档解析系统提供了明确方向。

创建时间：

2026-04-02

原始信息汇总

MDPBench 数据集概述

数据集基本信息

数据集名称：MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
许可证：Apache-2.0
论文链接：https://huggingface.co/papers/2603.28130
源代码仓库：https://github.com/Yuliang-Liu/MultimodalOCR

数据集简介

MDPBench 是首个用于多语言数字文档和拍摄文档解析的基准测试。该基准旨在评估模型在不同文字和低资源语言下的数字文档及拍摄文档上的性能。

数据集构成

数据规模：包含 3,400 张文档图像。
语言覆盖：涵盖 17 种语言，包括简体中文、繁体中文、英语、阿拉伯语、德语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、葡萄牙语、俄语、泰语、越南语。
数据多样性：包含多种文字和不同的拍摄条件。
数据划分：为进行公平比较并防止数据泄露，数据集维护了独立的公开和私有评估划分。

标注质量

标注通过严谨的流程生成，包括专家模型标注、人工校正和人工验证，确保了高质量。

主要评估发现

闭源模型（特别是 Gemini3-Pro）表现出相对较强的鲁棒性。
开源模型性能显著下降，尤其是在非拉丁文字和真实世界拍摄的文档上。
- 在拍摄文档上平均下降 17.8%。
- 在非拉丁文字上平均下降 14.0%。
这些结果揭示了不同语言和条件下显著的性能不平衡，并为构建更具包容性、可部署的解析系统指明了具体方向。

评估模型与结果概览

评估涵盖了通用视觉语言模型、专用视觉语言模型和流水线工具。性能指标以表格形式呈现，对比了模型在总体、数字文档、拍摄文档、拉丁语系平均、非拉丁语系平均以及私有集上的表现。

环境设置与评估步骤

环境设置：需克隆指定代码仓库，创建 Python 3.10 环境，并安装相关依赖。
数据集下载：通过提供的脚本从 Huggingface 下载 MDPBench（公开集）。
模型推理：按照指定格式运行模型推理并保存结果。

搜集汇总

数据集介绍

构建方式

在文档解析领域，现有研究多集中于少数主流语言的清洁数字文档，缺乏对多语言及真实拍摄场景的系统性评估。MDPBench的构建旨在填补这一空白，其通过严谨的流程整合了专家模型标注、人工校正与验证环节，确保了标注质量。数据集涵盖17种语言，包括简繁体中文、英语、阿拉伯语等，覆盖拉丁与非拉丁文字体系，并兼顾数字文档与拍摄文档两种形态，总计3400幅图像。为保障评估的公正性，数据被划分为公开与私有测试集，有效防止了数据泄露对结果的影响。

特点

MDPBench的突出特征在于其广泛的语言覆盖与真实的场景多样性。它不仅囊括了主流拉丁语系，更深入涵盖了阿拉伯文、中文、日文等非拉丁文字，以及印地语、泰语等低资源语言，呈现了文字体系的多元性。数据集同时包含数字文档与在复杂光照、角度下拍摄的文档图像，模拟了实际应用中的挑战。这种设计使得该基准能够全面检验模型在不同语言脚本和现实拍摄条件下的鲁棒性，揭示了现有模型在非拉丁文字及拍摄文档上性能显著下降的普遍现象。

使用方法

为使用MDPBench进行评估，研究者需首先配置指定的Python环境并安装依赖库。通过官方提供的脚本下载公开数据集后，可运行各类文档解析模型进行推理。模型输出需保存为与图像同名的Markdown格式文件，以方便后续指标计算。该基准支持对通用视觉语言模型、专用模型以及传统流水线工具进行端到端评估，其提供的详细性能表格便于横向比较不同模型在整体、分语言、分文档类型上的表现，从而指导模型在跨语言与真实场景下的优化方向。

背景与挑战

背景概述

在文档智能领域，多语言文档解析技术旨在从数字化或拍摄的文档图像中提取结构化信息，其发展长期受限于对少数主流语言及格式规整文档的依赖。MDPBench作为首个面向真实场景的多语言文档解析基准，由相关研究团队于近期构建，旨在系统评估模型在涵盖17种语言、多样文字体系及复杂拍摄条件下的性能表现。该数据集包含3400份高质量标注文档，通过专家模型标注、人工校正与验证的严谨流程创建，其核心研究问题是揭示并弥合现有模型在不同语言与真实场景间的性能鸿沟，为构建更具包容性与实用性的文档解析系统提供关键数据支撑与评估标准。

当前挑战

MDPBench所针对的领域挑战在于，当前文档解析模型在非拉丁文字体系及低资源语言上的性能显著滞后，且在真实拍摄文档场景中鲁棒性不足，导致实际部署时存在严重的性能不平衡问题。构建过程中的挑战则体现在多语言、多脚本文档的高质量标注难度，需克服语言多样性带来的标注一致性难题，并设计严谨的流程以确保标注精度；同时，为防范数据泄露并保障评估公平性，需精心规划公开与私有评估集的划分策略，这增加了数据集构建的复杂性与资源消耗。

常用场景

经典使用场景

在文档智能领域，MDPBench作为首个多语言文档解析基准，其经典应用场景在于系统评估视觉语言模型在多样化现实环境下的解析能力。该数据集涵盖了17种语言、多种文字体系以及数字与拍摄文档的混合条件，为研究者提供了一个标准化的测试平台，用以衡量模型在非拉丁文字和低资源语言上的表现。通过这一基准，能够深入探究模型在复杂文档布局、模糊图像质量以及跨语言泛化方面的实际效能，从而推动文档解析技术向更具包容性和鲁棒性的方向发展。

实际应用

在实际部署中，MDPBench为全球化的文档处理系统提供了关键的验证工具。其涵盖的阿拉伯语、日语、泰语等多种文字体系，能够支持跨国企业、政府机构和文化遗产数字化项目的多语言文档自动化。例如，在金融票据识别、法律文件归档或历史手稿转录中，该基准帮助开发者筛选出在特定语言和拍摄条件下表现稳健的模型，从而提升实际应用中的准确性与可靠性，促进技术在教育、商务、公共服务等领域的落地。

衍生相关工作

围绕MDPBench的评估结果，衍生出一系列针对多语言文档解析的改进研究。例如，基于该基准揭示的开源模型缺陷，研究者们开发了如dots.mocr等专用视觉语言模型，以提升非拉丁文字的解析精度。同时，该数据集也激励了跨语言迁移学习、低资源文档增强技术以及端到端多模态架构的创新，推动了PaddleOCR-VL、GLM-OCR等工具的迭代优化，为构建更均衡、可扩展的文档解析生态系统奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集