commonforms_val_subset

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/Voxel51/commonforms_val_subset

下载链接

链接失效反馈

官方服务：

资源简介：

CommonForms_val 是 CommonForms 数据集的一个验证子集，用于表单字段检测。它包含 10,000 个带有边界框的标注文档图像，边界框用于三种类型的表单字段：文本输入、选择按钮（复选框/单选按钮）和签名字段。该数据集旨在训练和评估对象检测模型，以自动检测文档图像中的可填写表单字段。数据集以 FiftyOne 格式存储，包括样本级别和检测级别的各种字段。该数据集是多语言的，涵盖了不同的领域，具有从交互式 PDF 表单自动提取的高质量标注。该数据集适用于训练对象检测模型、对表单字段检测系统进行基准测试以及研究文档理解。

创建时间：

2025-10-22

原始信息汇总

CommonForms_val 数据集概述

数据集基本信息

数据集名称: CommonForms_val
数据集类型: 验证子集
样本数量: 10,000个样本
语言: 英语（约67%），多语言（约33%非英语）
任务类别: 目标检测、视觉问答、视觉文档检索
许可证: Apache-2.0
数据规模: 10K<n<100K

数据集描述

CommonForms_val是CommonForms数据集的验证子集，专门用于表单字段检测。该数据集包含10,000个带标注的文档图像，包含三种表单字段的边界框标注：文本输入框、选择按钮（复选框/单选按钮）和签名字段。

数据集特点

多语言: 约三分之一页面为非英语
多领域: 14个分类领域，单个领域不超过数据集的25%
高质量标注: 从交互式PDF表单中自动提取可填充字段
三种表单字段类型:
- 文本输入框（68.9%）
- 选择按钮（30.7%）
- 签名字段（0.4%）

数据集结构

样本级字段

filepath: 文档图像文件路径
image_id: 原始数据集中图像的唯一标识符
file_name: 原始文件名
dataset_id: 原始数据集中的样本ID
ground_truth: 包含所有表单字段标注的FiftyOne检测对象

检测级字段

label: 表单字段类型
bounding_box: 归一化坐标[x, y, width, height]，范围[0,1]
area: 边界框的绝对像素面积
iscrowd: COCO风格的人群标志（此数据集中始终为False）
object_id: 标注的唯一标识符
category_id: 数字类别（0=文本输入，1=选择按钮，2=签名）

图像规格

图像尺寸: 可变，范围从1680×1680到3360×3528像素
平均尺寸: 1748×2201像素
格式: RGB PNG图像
分辨率: 高分辨率文档扫描
独特尺寸: 61种不同的图像尺寸组合

适用用途

训练和评估表单字段检测的目标检测模型
表单检测系统的基准测试
文档理解和智能文档处理研究
开发自动表单准备工具
高分辨率文档分析的计算机视觉研究
不平衡类别的多类目标检测

不适用用途

OCR或文本识别任务
表单理解或语义分析
手写检测
未经审查的隐私敏感应用
未经验证的生产部署
细粒度表单字段分类

数据来源

原始数据集: https://huggingface.co/datasets/jbarrow/CommonForms
代码仓库: https://github.com/jbarrow/commonforms
论文: https://arxiv.org/abs/2509.16506
演示: https://detect.semanticdocs.org

引用信息

bibtex @misc{barrow2025commonforms, title = {CommonForms: A Large, Diverse Dataset for Form Field Detection}, author = {Barrow, Joe}, year = {2025}, eprint = {2509.16506}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, doi = {10.48550/arXiv.2509.16506}, url = {https://arxiv.org/abs/2509.16506} }

搜集汇总

数据集介绍

构建方式

在文档智能处理领域，CommonForms_val_subset数据集的构建展现了大规模自动化标注的创新范式。该数据集源自Common Crawl中800万份PDF文档，通过严格的筛选流程识别出具有可填写表单元素的文档，最终保留约5.5万份文档的45万余页面。其核心方法在于从交互式PDF元数据中自动提取表单字段的坐标与类型，将文本输入框、选择按钮和签名域分别映射为三种检测类别，并通过坐标转换生成符合COCO标准的物体检测标注。这种基于PDF原生结构的自动化流程，既保障了标注规模与一致性，又显著降低了人工标注成本。

使用方法

该数据集通过FiftyOne平台提供标准化访问接口。用户需预先安装fiftyone库，通过load_from_hub函数直接加载数据集，并可选择max_samples等参数控制数据规模。加载后的数据集包含文件路径、图像标识符及标注信息等结构化字段，其中标注数据以Detections对象存储，包含归一化边界框坐标和类别标签。研究人员可借助FiftyOne的可视化工具直观浏览标注结果，亦可将其转换为主流深度学习框架支持的格式，用于训练YOLO、Faster R-CNN等目标检测模型，或进行跨语言、跨领域的模型性能评估。

背景与挑战

背景概述

CommonForms_val_subset作为文档智能领域的重要基准数据集，由独立研究员Joe Barrow于2025年构建，依托LambdaLabs的计算资源支持。该数据集源自Common Crawl中筛选的8百万份PDF文档，最终精炼出包含4.5万页表单的语料库，其验证子集涵盖1万张标注图像，专门针对表单字段检测这一核心研究问题。通过自动化提取PDF元数据中的交互式表单字段，该数据集开创性地实现了文本输入框、选择按钮与签名域三类元素的边界框标注，其多语言覆盖与跨领域特性为文档理解研究提供了前所未有的规模与多样性。

当前挑战

在表单字段检测任务中，模型需应对高分辨率文档图像中极端尺度变化的定位挑战，特别是仅占0.4%的签名字段所引发的类别不平衡问题。数据集构建过程中面临双重困难：从海量网络PDF中筛选有效表单需设计复杂清洗流程，确保标注质量依赖原始PDF结构的规范性；同时将PDF坐标转换为像素坐标系时，需处理不同文档尺寸与布局的异构性，而自动标注机制虽提升效率，却难以捕捉视觉特征与语义关联的深层模式。

常用场景

经典使用场景

在文档智能分析领域，CommonForms_val_subset作为表单字段检测的基准数据集，主要用于训练和评估目标检测模型识别文档图像中可填写字段的能力。该数据集通过高分辨率图像和精确边界框标注，支持模型学习文本输入框、选择按钮及签名区域的空间定位特征，为文档理解研究提供了标准化实验平台。

解决学术问题

该数据集有效解决了文档分析中表单字段自动检测的学术难题，填补了大规模公开数据集的空白。通过从交互式PDF元数据自动提取标注，避免了传统人工标注的成本与主观偏差，为多语言、多领域表单检测模型提供了可复现的评估基准，显著推动了智能文档处理技术的理论发展。

实际应用

在实际应用中，该数据集支撑的模型已广泛应用于自动化表单预处理系统，可将静态PDF转换为可填写电子表单。政府部门与金融机构利用该技术提升文档数字化效率，教育机构则通过表单字段定位优化在线申请流程，为跨行业文档智能化管理提供了核心技术支持。

数据集最近研究