French PDF-to-Markdown Benchmark

Name: French PDF-to-Markdown Benchmark
Creator: Probayes; OpenValue
Published: 2026-02-12 21:55:43
License: 暂无描述

arXiv2026-02-12 更新2026-02-15 收录

下载链接：

https://github.com/ld-lab-pulsia/vlmparse

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Probayes和OpenValue等机构联合构建，专注于法语PDF文档到Markdown格式的转换评估。数据集包含约60,000份文档，涵盖手写表单、复杂布局、密集表格和图形丰富页面等多种挑战性内容，通过模型分歧采样策略筛选困难样本。数据主要来源于CCPDF和Gallica语料库，经过半自动化测试生成和人工验证流程处理。该基准测试旨在解决多语言文档理解中的实际痛点，特别针对法语文档在检索增强生成(RAG)流程中的语义完整性和结构连贯性需求，为视觉语言模型在复杂现实场景下的性能评估提供标准化工具。

This dataset was jointly constructed by institutions including Probayes, OpenValue, and other relevant organizations, focusing on the evaluation of French PDF document conversion to Markdown format. The dataset contains approximately 60,000 documents covering a wide range of challenging content types such as handwritten forms, complex layouts, dense tables, and graphics-rich pages. Difficult samples were screened using a model disagreement sampling strategy. The data is primarily sourced from the CCPDF and Gallica corpora, and processed through semi-automated test generation and manual verification workflows. This benchmark aims to address the practical pain points in multilingual document understanding, specifically targeting the requirements for semantic integrity and structural coherence of French documents in Retrieval-Augmented Generation (RAG) workflows, providing a standardized tool for evaluating the performance of vision-language models in complex real-world scenarios.

提供机构：

Probayes; OpenValue

创建时间：

2026-02-12

原始信息汇总

vlmparse 数据集概述

数据集基本信息

数据集名称: vlmparse
数据集托管平台: Hugging Face
数据集访问地址: https://huggingface.co/datasets/pulsia/fr-bench-pdf2md
相关基准测试: Benchmark (https://github.com/ld-lab-pulsia/benchpdf2md)
相关排行榜: Leaderboard (https://huggingface.co/spaces/pulsia/fr-bench-pdf2md)

数据集核心功能

vlmparse 是一个统一的封装工具，用于结合视觉语言模型和OCR解决方案，将PDF文档解析为Markdown格式。

主要特性

⚡ 支持异步/并发处理以实现高吞吐量
🐳 为本地模型提供自动Docker服务器管理
🔄 跨所有VLM/OCR提供商的统一接口
📊 内置基于Streamlit的结果可视化功能

支持的转换器类型

开源小型VLM

lightonocr2, mineru2.5, hunyuanocr, paddleocrvl-1.5, granite-docling, olmocr2-fp8, dotsocr, chandra, deepseekocr2, nanonets/Nanonets-OCR2-3B

开源通用VLM

例如Qwen系列模型

处理流水线

docling

专有大型语言模型

gemini, gpt

开发团队

本作品由La Poste的两家子公司Probayes和OpenValue的成员完成。

搜集汇总

数据集介绍

构建方式

在文档智能领域，针对法语PDF至Markdown转换的评估需求，该数据集通过对抗性筛选策略构建而成。其源语料库包含约六万份来自CCPDF与Gallica的法语文档，采用模型分歧采样方法，即利用两种不同视觉语言模型对文档进行转录，并以输出间的编辑距离作为模型不一致性的代理指标。通过选取分歧最大的页面作为候选，该策略有意识地将数据集偏向于当前转换系统表现不稳定的页面，从而有效覆盖手写表单、复杂布局、密集表格及图形丰富页面等具有挑战性的文档类型。

使用方法

为使用该数据集进行评估，研究人员需通过统一的转换管道（如vlmparse库）将PDF页面图像输入待测视觉语言模型，以生成Markdown输出。评估时，模型的输出将针对数据集中预先定义的单元测试集进行验证，测试类型包括文本存在性测试、阅读顺序测试及表格结构测试。通过计算测试通过率作为主要性能指标，并结合类别特定的归一化设置来减少误报，从而实现对模型在法语文档解析任务上鲁棒性的精准度量。该流程支持对多种专有及开源模型进行标准化比较，尤其适用于评估模型在作为检索增强生成系统输入时的实际效用。

背景与挑战

背景概述

在视觉-语言模型（VLMs）快速发展的背景下，文档解析作为检索增强生成（RAG）流程的关键环节，其准确性直接影响下游任务的效果。然而，现有基准如OCRBench和OmniDocBench多聚焦于英语或中文文档，且评估指标常因格式差异而产生偏差，难以满足多语言场景的需求。为此，由Probayes和La Poste的研究团队于2026年2月发布的French PDF-to-Markdown Benchmark，旨在填补法语文档解析领域的空白。该数据集从六万份文档中通过模型分歧采样精选出具有挑战性的页面，涵盖手写体、复杂布局、密集表格和图形丰富内容，为核心研究问题——提升法语PDF到Markdown转换的鲁棒性与语义完整性——提供了标准化评估框架，对推动多语言文档智能处理具有重要意义。

当前挑战

该数据集致力于解决法语文档PDF到Markdown转换中的领域挑战，包括手写文本识别、复杂版面分析、阅读顺序确定以及表格结构提取等难题，这些任务在现有基准中常被忽视或评估不足。在构建过程中，研究团队面临多重挑战：首先，通过模型分歧采样从海量文档中筛选困难页面，需平衡样本多样性与代表性，避免引入偏差；其次，设计单元测试式评估方法时，必须规避因格式线性化或空白字符差异导致的误判，为此引入了类别特定的归一化策略以区分实质性错误与无害变异；此外，标注过程依赖人机协作，需确保测试用例的准确性与一致性，同时处理图形内容描述等模糊任务，这些因素共同增加了数据集构建的复杂性与严谨性要求。

常用场景

经典使用场景

在文档智能领域，PDF到Markdown的转换是构建检索增强生成（RAG）管道的关键预处理步骤。French PDF-to-Markdown Benchmark通过模型分歧采样从六万份法语文档中精选具有挑战性的页面，涵盖手写表单、复杂布局、密集表格和图形丰富页面，为评估视觉语言模型在法语文档解析任务中的鲁棒性提供了经典测试场景。该数据集采用单元测试风格的评估方法，针对文本存在性、阅读顺序和局部表格约束等具体失败模式，旨在模拟真实世界文档处理流程中的核心难点。

解决学术问题

该数据集有效解决了文档理解领域长期存在的评估碎片化问题，特别是针对非英语文档的基准缺失。传统评估指标如全局编辑距离往往过度惩罚无害的格式差异，而该数据集通过类别特定归一化策略，区分了语义内容错误与表现层差异。其单元测试框架能够精准诊断幻觉生成、字符替换、实体遗漏等操作层面的失败模式，为跨语言文档解析模型的性能评估提供了可解释、可复现的标准化方案，推动了视觉语言模型在复杂多语言场景下的可靠性研究。

实际应用

在实际应用层面，该数据集直接服务于法语区机构的文档数字化工作流。金融机构处理手写申请表、档案馆数字化历史文献、出版机构转换复杂排版文档时，均可借助该基准优化的模型提升转换精度。其评估体系特别关注生成Markdown的语义完整性与结构连贯性，确保转换后的文本能够无缝接入下游的RAG系统，用于智能问答、文档摘要和法律条文检索等场景，显著降低了因转换错误导致的检索失效与信息失真风险。

数据集最近研究