form_understanding_in_noisy_scanned_documents_plus
收藏Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/Voxel51/form_understanding_in_noisy_scanned_documents_plus
下载链接
链接失效反馈官方服务:
资源简介:
FUNSD+(表格理解在噪声扫描文档中)是一个增强版的FUNSD数据集,用于表格理解任务。该数据集提供了从扫描表格中提取结构化信息的真实数据,包括实体识别和表格字段及其值之间的关系提取。FUNSD+解决了原始FUNSD数据集中发现的标签不一致问题,并将文档数量从199扩展到1,113。该数据集包含标题、问题(字段标签)、答案(字段值)及其关系的注释,使其适合用于训练和评估用于键值提取、文档布局分析和表格理解任务的模式。每个样本包括扫描表格图像、单词级别的OCR令牌和边界框、实体标签(标题、问题、答案、其他)、形成语义单元的分组单词以及显示问题和答案之间关系的链接组。
FUNSD+ (Table Understanding in Noisy Scanned Documents) is an enhanced variant of the FUNSD dataset dedicated to table understanding tasks. This dataset provides ground-truth data for extracting structured information from scanned tables, covering entity recognition and relation extraction between table fields and their corresponding values. FUNSD+ addresses the label inconsistency issues identified in the original FUNSD dataset, and expands the total number of documents from 199 to 1,113. It includes annotations for titles, questions (field labels), answers (field values) and their relational connections, making it suitable for training and evaluating models for key-value extraction, document layout analysis and table understanding tasks. Each sample consists of scanned table images, word-level OCR tokens and bounding boxes, entity labels (title, question, answer, others), grouped words that form semantic units, as well as link groups that indicate the relational links between questions and answers.
创建时间:
2025-10-18
原始信息汇总
FUNSD+ 数据集概述
数据集基本信息
- 数据集名称: Form Understanding in Noisy Scanned Documents Plus (FUNSD+)
- 数据集规模: 1,139个样本(训练集1,026个,测试集113个)
- 数据大小: 约204 MB
- 语言: 英语(en)
- 许可证: FUNSD+ Custom License(https://huggingface.co/datasets/konfuzio/funsd_plus/blob/main/LICENSE)
任务类型
- 目标检测
- 视觉问答
- 视觉文档检索
数据集描述
FUNSD+是原始FUNSD数据集的增强版本,专门用于表单理解任务。该数据集提供从扫描表单中提取结构化信息的真实标注数据,包括实体识别和表单字段与其值之间的关系提取。
数据集结构
数据字段
- image: 扫描表单图像(PNG格式),尺寸通常为1000x1000至1400x1400像素
- words: OCR提取的文本标记列表
- bboxes: 每个单词的边界框坐标,格式为[x_min, y_min, x_max, y_max]
- labels: 实体类型标签(0:其他,1:标题,2:问题,3:答案)
- grouped_words: 将单词分组为语义单元的索引
- linked_groups: 显示单词组之间关系的索引
数据集划分
| 划分 | 样本数量 | 大小 |
|---|---|---|
| 训练集 | 1,026 | ~183 MB |
| 测试集 | 113 | ~21 MB |
| 总计 | 1,139 | ~204 MB |
与原始FUNSD的比较
| 指标 | FUNSD | FUNSD+ |
|---|---|---|
| 文档数量 | 199 | 1,113 |
| 标题数量 | 563 | 1,604 |
| 问题数量 | 4,343 | 14,695 |
| 答案数量 | 3,623 | 12,154 |
| 无答案的问题 | 720 (16.6%) | 2,691 (18.3%) |
| 无问题的答案 | 0 | 114 (0.9%) |
主要用途
- 表单理解
- 键值对提取
- 文档布局分析
- 命名实体识别
- OCR后处理
- 多模态文档理解
- 模型基准测试
数据来源
- 存储库: https://huggingface.co/datasets/konfuzio/funsd_plus
- 主页: https://konfuzio.com/en/funsd-plus/
- 原始论文: FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents (Jaume et al., 2019)
引用信息
bibtex @misc{zagami_helm_2022, title = {FUNSD+: A larger and revised FUNSD dataset}, author = {Zagami, Davide and Helm, Christopher}, year = {2022}, month = {Oct}, journal = {FUNSD+ | A larger and revised FUNSD dataset}, publisher = {Helm & Nagel GmbH}, url = {https://konfuzio.com/funsd-plus/} }
搜集汇总
数据集介绍

构建方式
在文档智能研究领域,构建高质量数据集是推动表单理解技术发展的关键。该数据集通过对1,113份扫描表单进行系统化处理,采用OCR技术提取文本单元及其边界框坐标,并由专业标注团队按照统一规范对实体类型进行精细标注。标注过程严格遵循语义单元分组原则,建立了问题与答案间的逻辑关联,有效修正了原始数据集中的标注不一致问题,形成了包含标题、问题、答案及其他四类实体的结构化标注体系。
特点
该数据集在噪声文档理解任务中展现出显著优势,其核心特征体现在多维度标注体系的完整性。数据集不仅提供扫描图像与OCR文本的对应关系,更通过层次化标注结构呈现表单的语义布局:单词级实体标注区分功能类型,词组级聚合形成完整语义单元,而链接标注则精准捕捉问题与答案间的逻辑关联。相较于原始版本,数据规模扩展至五倍以上,标注一致性显著提升,为多模态文档理解模型提供了更丰富的训练样本。
使用方法
针对文档智能应用场景,该数据集可通过FiftyOne框架实现便捷调用。用户仅需安装相应依赖库,即可通过HuggingFace平台加载数据集实例。数据集支持灵活的参数配置,允许开发者根据需求调整样本数量,并可通过内置可视化工具直观查看标注结果。该数据格式完美适配LayoutLM等Transformer架构,可直接用于关键信息抽取、文档布局分析等任务的模型训练与评估。
背景与挑战
背景概述
文档智能领域长期面临着从噪声扫描文档中提取结构化信息的挑战。2019年由Guillaume Jaume等研究者提出的FUNSD数据集,作为首个专注于表单理解任务的基准数据集,通过标注标题、问题、答案等实体及其关联关系,为文档布局分析与关键信息抽取提供了重要支撑。2022年Konfuzio机构发布的增强版本FUNSD+,将文档规模从199份扩展至1,113份,并修正了原始标注不一致问题,显著提升了表单实体识别与关系抽取任务的可靠性,成为训练LayoutLM等多模态文档理解模型的核心资源。
当前挑战
该数据集致力于解决噪声扫描文档中的表单理解难题,其核心挑战在于文档图像质量差异导致的OCR识别误差、复杂版面布局下的实体边界判定,以及跨模态语义对齐问题。构建过程中面临标注一致性与规模扩展的双重压力:需人工校正原始数据集中18.3%无对应答案的问题实体,同时维持千余份文档的实体分组与关联标注质量。多源扫描文档的格式异构性进一步增加了语义单元划分与关系链接的复杂度,要求标注系统具备处理版面变形与文本噪声的鲁棒性。
常用场景
经典使用场景
在文档智能研究领域,FUNSD+数据集作为噪声扫描文档理解的基准工具,主要应用于表单结构解析任务。该数据集通过提供包含标题、问题标签和答案值的实体标注,以及语义单元间的关联关系,为关键值提取模型训练提供了标准化评估框架。研究人员可借助其丰富的空间布局与文本关联信息,开发能够识别表单字段间逻辑连接的深度学习架构。
衍生相关工作
基于FUNSD+衍生的经典研究包括LayoutLMv3在多模态预训练中的创新应用,其通过融合文本、布局和图像特征显著提升了表单理解性能。Konfuzio团队进一步开发了面向工业级应用的文档解析管道,微软研究院则在TILT模型中实现了端到端的文档问答系统。这些工作共同推动了文档智能从实验室研究向产业落地的转化进程。
数据集最近研究
最新研究方向
在文档智能领域,表单理解技术正面临从结构化解析向复杂语义关系挖掘的深度演进。FUNSD+数据集凭借其增强的标注质量和规模优势,已成为多模态文档理解研究的重要基准。当前前沿研究聚焦于融合视觉-文本-布局信息的预训练模型优化,特别是针对LayoutLM系列架构在噪声文档中的鲁棒性提升。随着数字办公场景的普及,该数据集在金融票据识别、医疗表格解析等垂直领域展现出显著应用价值,其精心标注的键值对关系为端到端信息抽取系统提供了关键训练支撑。学术界正基于该数据集探索跨模态注意力机制在文档实体链接中的创新应用,推动着智能文档处理技术向更精细的语义理解层级迈进。
以上内容由遇见数据集搜集并总结生成



