form_understanding_in_noisy_scanned_documents_plus

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/Voxel51/form_understanding_in_noisy_scanned_documents_plus

下载链接

链接失效反馈

官方服务：

资源简介：

FUNSD+（表格理解在噪声扫描文档中）是一个增强版的FUNSD数据集，用于表格理解任务。该数据集提供了从扫描表格中提取结构化信息的真实数据，包括实体识别和表格字段及其值之间的关系提取。FUNSD+解决了原始FUNSD数据集中发现的标签不一致问题，并将文档数量从199扩展到1,113。该数据集包含标题、问题（字段标签）、答案（字段值）及其关系的注释，使其适合用于训练和评估用于键值提取、文档布局分析和表格理解任务的模式。每个样本包括扫描表格图像、单词级别的OCR令牌和边界框、实体标签（标题、问题、答案、其他）、形成语义单元的分组单词以及显示问题和答案之间关系的链接组。

FUNSD+ (Table Understanding in Noisy Scanned Documents) is an enhanced variant of the FUNSD dataset dedicated to table understanding tasks. This dataset provides ground-truth data for extracting structured information from scanned tables, covering entity recognition and relation extraction between table fields and their corresponding values. FUNSD+ addresses the label inconsistency issues identified in the original FUNSD dataset, and expands the total number of documents from 199 to 1,113. It includes annotations for titles, questions (field labels), answers (field values) and their relational connections, making it suitable for training and evaluating models for key-value extraction, document layout analysis and table understanding tasks. Each sample consists of scanned table images, word-level OCR tokens and bounding boxes, entity labels (title, question, answer, others), grouped words that form semantic units, as well as link groups that indicate the relational links between questions and answers.

创建时间：

2025-10-18

原始信息汇总

FUNSD+ 数据集概述

数据集基本信息

数据集名称: Form Understanding in Noisy Scanned Documents Plus (FUNSD+)
数据集规模: 1,139个样本（训练集1,026个，测试集113个）
数据大小: 约204 MB
语言: 英语（en）
许可证: FUNSD+ Custom License（https://huggingface.co/datasets/konfuzio/funsd_plus/blob/main/LICENSE）

任务类型

目标检测
视觉问答
视觉文档检索

数据集描述

FUNSD+是原始FUNSD数据集的增强版本，专门用于表单理解任务。该数据集提供从扫描表单中提取结构化信息的真实标注数据，包括实体识别和表单字段与其值之间的关系提取。

数据集结构

数据字段

image: 扫描表单图像（PNG格式），尺寸通常为1000x1000至1400x1400像素
words: OCR提取的文本标记列表
bboxes: 每个单词的边界框坐标，格式为[x_min, y_min, x_max, y_max]
labels: 实体类型标签（0：其他，1：标题，2：问题，3：答案）
grouped_words: 将单词分组为语义单元的索引
linked_groups: 显示单词组之间关系的索引

数据集划分

划分	样本数量	大小
训练集	1,026	~183 MB
测试集	113	~21 MB
总计	1,139	~204 MB

与原始FUNSD的比较

指标	FUNSD	FUNSD+
文档数量	199	1,113
标题数量	563	1,604
问题数量	4,343	14,695
答案数量	3,623	12,154
无答案的问题	720 (16.6%)	2,691 (18.3%)
无问题的答案	0	114 (0.9%)

主要用途

表单理解
键值对提取
文档布局分析
命名实体识别
OCR后处理
多模态文档理解
模型基准测试

数据来源

存储库: https://huggingface.co/datasets/konfuzio/funsd_plus
主页: https://konfuzio.com/en/funsd-plus/
原始论文: FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents (Jaume et al., 2019)

引用信息

bibtex @misc{zagami_helm_2022, title = {FUNSD+: A larger and revised FUNSD dataset}, author = {Zagami, Davide and Helm, Christopher}, year = {2022}, month = {Oct}, journal = {FUNSD+ | A larger and revised FUNSD dataset}, publisher = {Helm & Nagel GmbH}, url = {https://konfuzio.com/funsd-plus/} }

搜集汇总

数据集介绍

构建方式

在文档智能研究领域，构建高质量数据集是推动表单理解技术发展的关键。该数据集通过对1,113份扫描表单进行系统化处理，采用OCR技术提取文本单元及其边界框坐标，并由专业标注团队按照统一规范对实体类型进行精细标注。标注过程严格遵循语义单元分组原则，建立了问题与答案间的逻辑关联，有效修正了原始数据集中的标注不一致问题，形成了包含标题、问题、答案及其他四类实体的结构化标注体系。

特点

该数据集在噪声文档理解任务中展现出显著优势，其核心特征体现在多维度标注体系的完整性。数据集不仅提供扫描图像与OCR文本的对应关系，更通过层次化标注结构呈现表单的语义布局：单词级实体标注区分功能类型，词组级聚合形成完整语义单元，而链接标注则精准捕捉问题与答案间的逻辑关联。相较于原始版本，数据规模扩展至五倍以上，标注一致性显著提升，为多模态文档理解模型提供了更丰富的训练样本。

使用方法

针对文档智能应用场景，该数据集可通过FiftyOne框架实现便捷调用。用户仅需安装相应依赖库，即可通过HuggingFace平台加载数据集实例。数据集支持灵活的参数配置，允许开发者根据需求调整样本数量，并可通过内置可视化工具直观查看标注结果。该数据格式完美适配LayoutLM等Transformer架构，可直接用于关键信息抽取、文档布局分析等任务的模型训练与评估。

背景与挑战

背景概述

文档智能领域长期面临着从噪声扫描文档中提取结构化信息的挑战。2019年由Guillaume Jaume等研究者提出的FUNSD数据集，作为首个专注于表单理解任务的基准数据集，通过标注标题、问题、答案等实体及其关联关系，为文档布局分析与关键信息抽取提供了重要支撑。2022年Konfuzio机构发布的增强版本FUNSD+，将文档规模从199份扩展至1,113份，并修正了原始标注不一致问题，显著提升了表单实体识别与关系抽取任务的可靠性，成为训练LayoutLM等多模态文档理解模型的核心资源。

当前挑战

该数据集致力于解决噪声扫描文档中的表单理解难题，其核心挑战在于文档图像质量差异导致的OCR识别误差、复杂版面布局下的实体边界判定，以及跨模态语义对齐问题。构建过程中面临标注一致性与规模扩展的双重压力：需人工校正原始数据集中18.3%无对应答案的问题实体，同时维持千余份文档的实体分组与关联标注质量。多源扫描文档的格式异构性进一步增加了语义单元划分与关系链接的复杂度，要求标注系统具备处理版面变形与文本噪声的鲁棒性。

常用场景

经典使用场景

在文档智能研究领域，FUNSD+数据集作为噪声扫描文档理解的基准工具，主要应用于表单结构解析任务。该数据集通过提供包含标题、问题标签和答案值的实体标注，以及语义单元间的关联关系，为关键值提取模型训练提供了标准化评估框架。研究人员可借助其丰富的空间布局与文本关联信息，开发能够识别表单字段间逻辑连接的深度学习架构。

衍生相关工作

基于FUNSD+衍生的经典研究包括LayoutLMv3在多模态预训练中的创新应用，其通过融合文本、布局和图像特征显著提升了表单理解性能。Konfuzio团队进一步开发了面向工业级应用的文档解析管道，微软研究院则在TILT模型中实现了端到端的文档问答系统。这些工作共同推动了文档智能从实验室研究向产业落地的转化进程。

数据集最近研究