docling-project/regression-dataset-for-docling-parse

Name: docling-project/regression-dataset-for-docling-parse
Creator: docling-project
Published: 2026-05-08 04:44:18
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/docling-project/regression-dataset-for-docling-parse

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含用作[`docling-parse`](https://github.com/docling-project/docling-parse)回归测试语料库的参考数据集。其目的是使解析器和渲染器的更改安全：当[`docling-parse`](https://github.com/docling-project/docling-parse)的行为发生变化时，测试套件可以将当前输出与此数据集中存储的预期工件进行比较。数据集主要用于两部分测试套件：`parse`（检查PDF解析输出是否与存储的真实结构和提取内容匹配）和`renderer`（检查渲染输出是否与存储的渲染指令和位图工件匹配）。数据集内容包括`regression/`（用于回归覆盖的源PDF文件）、`groundtruth/`（选定页面和文档的预期解析输出）、`groundtruth_renderer/`（预期的渲染器输出，如指令JSON、位图元数据和导出文件）以及其他用于边缘案例和失败场景的夹具。该数据集帮助检测文本提取、布局和几何、注释和形状、位图提取以及页面渲染指令等方面的意外回归。

This repository contains the reference dataset used as a regression test corpus for [`docling-parse`](https://github.com/docling-project/docling-parse). Its purpose is to make parser and renderer changes safe: when behavior changes in [`docling-parse`](https://github.com/docling-project/docling-parse), the test suite can compare the current output against the expected artifacts stored in this dataset. The dataset serves two related parts of the [`docling-parse`](https://github.com/docling-project/docling-parse) test suite: `parse` (checking PDF parsing outputs against stored ground-truth structures and extracted content) and `renderer` (checking rendering outputs against stored render instructions and bitmap artifacts). The dataset is organized into groups including `regression/` (source PDF files for regression coverage), `groundtruth/` (expected parse outputs for selected pages and documents), `groundtruth_renderer/` (expected renderer outputs like instruction JSON and bitmap files), and additional fixtures for edge cases and failure scenarios. This dataset helps detect unintended regressions in text extraction, layout and geometry, annotations and shapes, bitmap extraction, and page rendering instructions.

提供机构：

docling-project

搜集汇总

数据集介绍

构建方式

该数据集专为docling-parse库的回归测试而精心构建，旨在保障PDF解析与渲染功能在代码迭代中的稳定性。其核心包含一个结构化且层次分明的测试语料库，主要分为几个关键组别：regression/目录存放了用于覆盖各类回归场景的原始PDF文档；groundtruth/与groundtruth_renderer/分别存储了经过验证的标准解析输出与渲染结果，涵盖指令JSON、位图元数据、导出的位图文件及完整页面图像；此外，cases/、errors/及synthetic/等目录则补充了针对边界情况、失败场景及合成输入的特定测试用例。通过将当前输出与这些预存的基准工件进行严格比对，即可精准捕获文本提取、布局几何、注释表单、位图提取及页面渲染指令等模块中的非预期行为变化。

特点

该数据集最显著的特点在于其双轨回归验证机制，紧密围绕docling-parse的两大核心功能——parse与renderer——设计。parse模块的测试通过比对解析输出与预设的groundtruth结构、提取内容及文档特定的回归固件，确保PDF解析逻辑的准确性与一致性；而renderer模块的测试则对比渲染指令、位图工件与页面图像，保障渲染输出的视觉保真度。数据集内数据的组织高度模块化，不同类别的测试样本被清晰归类，便于针对性调试与扩展。同时，该数据集附带了位于_docling_parse/_tests目录下的参考测试代码（如test_parse.py和test_renderer.py），提供了开箱即用的集成范例，极大简化了开发者在其基础上构建或扩展测试流程的复杂度。

使用方法

使用该数据集进行回归测试时，开发者需将docling-parse库的当前输出与数据集中存储的基准结果进行自动化比对。具体而言，可通过运行数据集内附带的参考测试脚本（即_docling_parse/_tests/test_parse.py与test_renderer.py）来启动验证流程。这些测试脚本会依次读取regression/中的PDF文件，调用parse或renderer模块生成临时结果，并与对应的groundtruth或groundtruth_renderer工件（如JSON结构、位图文件或页面图像）逐项比对。任何偏离预期输出的差异均会被报告为回归问题，从而精确定位代码变动引发的功能性衰退。此外，开发者亦可直接将该数据集整合至自定义的CI/CD流水线中，通过持续集成工具自动触发回归测试，确保每次代码提交均通过稳定性的双重检验。

背景与挑战

背景概述

在文档解析与渲染领域，确保软件迭代过程中功能的一致性与正确性至关重要。为此，Docling项目团队开发了专门用于回归测试的数据集regression-dataset-for-docling-parse。该数据集由Docling项目团队创建，旨在为docling-parse解析器与渲染器提供基准测试语料库。其核心研究问题聚焦于：在代码变更时，如何通过自动化测试快速检测文本提取、布局几何、注释表单及位图渲染等环节的潜在退化。该数据集对文档智能处理领域具有显著影响力，为解析与渲染组件的可靠性验证提供了标准化参考，推动了开源文档处理工具的质量保障实践。

当前挑战

该数据集旨在解决两大核心挑战。领域问题方面，PDF解析与渲染对实现细节极为敏感，微小的变更可能导致文本提取错位、布局几何失真或位图渲染异常，传统测试方法难以覆盖全面。数据集通过构建包含回归测试、真实案例、错误场景及合成输入的多样化语料库，系统性检测解析与渲染的回归问题。构建过程中，团队面临的关键挑战包括：确保groundtruth结构的高精度标注，以适应多页面、复杂布局的变体；设计可复现的测试框架，同步校验解析输出与渲染指令；以及维护跨版本的数据集一致性，避免因标注偏差导致误检。

常用场景

经典使用场景

该数据集作为docling-parse文档解析与渲染工具的回溯测试基准，广泛应用于PDF文档解析与渲染的回归测试场景。研究者通过对比当前解析结果与数据集中存储的真实标注（ground-truth）结构、提取内容及文档特定回归夹具，能够精准检测文本提取、布局几何、注释表单、位图提取及页面渲染指令等环节在代码迭代中的行为变化。这一机制确保了PDF解析和渲染算法的稳定性与可靠性。

解决学术问题

数据集致力于解决PDF解析与渲染领域长期存在的回归测试难题，即细小实现变更可能导致文本提取、布局几何、注释表单、位图提取及页面渲染指令等环节的意外劣化。通过提供结构化的回归测试基线，该数据集使研究者能够系统性地捕捉并定位算法改动的副作用，从而保障文档解析与渲染系统的鲁棒性。其意义在于为学术研究提供了一个标准化、可复现的验证平台，推动了PDF处理技术的可信演进。

衍生相关工作

基于该回归数据集，衍生出多项标准化测试与评估工作。例如，解析测试代码（test_parse.py）利用数据集中真实标注结构验证PDF解析输出的完整性；渲染测试代码（test_renderer.py）则通过比对渲染指令JSON、位图元数据及页面图像，校准渲染器的正确性。这些测试框架已成为docling-parse项目迭代的核心保障，并可能启发其他PDF工具链开发者构建类似的回归基线，最终形成更广泛的文档处理质量保障生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集