CommonForms
收藏arXiv2025-09-20 更新2025-09-24 收录
下载链接:
https://0sep1-1.com/
下载链接
链接失效反馈官方服务:
资源简介:
CommonForms是一个大规模、多样化的表单字段检测数据集,包含来自Common Crawl的超过59,000个文档和超过480,000个页面。该数据集通过筛选Common Crawl中的PDF文档,找出具有可填写元素的文档,并进行清洗和过滤,最终得到一个包含丰富语言和领域混合的数据集。CommonForms数据集旨在为表单字段检测提供高质量的训练数据,并支持开源模型FFDNet的训练和发布。FFDNet模型在CommonForms测试集上取得了很高的平均精度,并且能够预测文本、签名和选择按钮等表单字段的位置和类型。
CommonForms is a large-scale and diverse form field detection dataset, which contains over 59,000 documents and more than 480,000 pages sourced from Common Crawl. This dataset is constructed by screening PDF documents in Common Crawl to identify those with fillable elements, followed by cleaning and filtering processes, ultimately yielding a dataset with a rich mix of languages and domains. The CommonForms dataset aims to provide high-quality training data for form field detection tasks, and supports the training and release of the open-source model FFDNet. The FFDNet model achieves high average precision on the CommonForms test set, and is capable of predicting the positions and types of form fields such as text inputs, signature fields, and selection buttons.
提供机构:
独立研究员
创建时间:
2025-09-20
搜集汇总
数据集介绍
构建方式
在文档智能研究领域,构建高质量数据集是推动技术发展的关键。CommonForms数据集通过从Common Crawl网络爬虫中筛选约790万份PDF文档,首先保留包含AcroForm或XFA表单标准的文档,将初始集合缩减至76.2万份。随后应用严格的一致性过滤,移除无表单字段或仅含按钮字段的文档,并清理超出页面边界、尺寸过小或重叠度高的异常标注,最终得到包含4.8万页、源自5.9万份文档的精炼数据集。这一流程在保证数据多样性的同时,显著提升了标注质量与模型训练效率。
特点
作为首个大规模表单字段检测数据集,CommonForms展现出显著的多样性与实用性。其内容涵盖政府、商业、法律等14个领域,且单一领域占比不超过25%,避免了数据偏差。语言分布上,约三分之一页面为非英语,涵盖粤语、德语、西班牙语等多元语种,支持跨语言表单处理研究。数据集标注包含文本输入、选择按钮和签名三类字段,尤其涵盖商业工具常忽略的选择按钮类型,为复杂表单结构分析提供了丰富样本。
使用方法
该数据集将表单字段检测定义为目标检测任务,用户可将页面图像输入至预训练的FFDNet模型系列,直接预测字段位置与类型。模型支持1216像素高分辨率输入,对细微表单元素(如下划线、复选框)具有优异识别能力。实践应用中,研究者可基于训练集微调模型,利用验证集进行超参数优化,并通过测试集评估跨语言、跨领域的泛化性能。数据集提供的原始文本与语言标签还可用于多模态表单理解任务的拓展研究。
背景与挑战
背景概述
随着数字化转型的深入发展,纸质表单在保险理赔、市政文件等现实交易中仍占据重要地位,这些文档常以扫描件或非可填写PDF形式存在,亟需自动化处理工具。CommonForms数据集由独立研究员Joe Barrow于2025年提出,旨在通过从Common Crawl中筛选包含可填写元素的PDF文档,构建大规模表单字段检测数据集。该数据集涵盖约5.9万份文档、48万页内容,支持文本输入、选择按钮和签名字段三类检测任务,其语言多样性显著(三分之一为非英语页面),覆盖政府、商业等14个领域,为文档智能处理领域提供了首个开源基准。
当前挑战
表单字段检测需解决视觉元素精细化定位的难题,如下划线、复选框等微小目标的识别对输入分辨率极为敏感,实验表明分辨率从640px提升至1536px可使检测精度差异达20个百分点。构建过程中,从Common Crawl原始PDF中筛选有效表单面临标注不一致的挑战,例如签名字段被误标为文本、选择按钮缺失标注,或表单字段被错误用于页眉页脚等场景,这些噪声数据虽经99%过滤仍存留,影响了模型的泛化能力。
常用场景
经典使用场景
在文档智能研究领域,CommonForms数据集被广泛应用于表单字段检测任务的基准测试与模型验证。该数据集通过将表单字段检测建模为对象检测问题,为研究者提供了标准化的评估框架。其典型应用场景包括训练高精度检测模型,如FFDNet系列,这些模型能够从页面图像中准确定位并分类文本输入框、选择按钮和签名区域等交互元素。数据集涵盖多语言、多领域的真实表单样本,有效支撑了表单结构解析算法的开发与优化。
实际应用
在实际应用层面,CommonForms驱动的技术可广泛应用于政务审批、金融保险、医疗教育等领域的纸质表单数字化流程。例如,FFDNet模型能够自动将扫描版PDF转换为可填充的交互式表单,替代Adobe Acrobat等商业工具的手动处理。该技术特别适用于多语言场景(如含中文、西班牙语的表单),并能识别商业软件难以检测的选择按钮元素,大幅提升办公自动化效率与无障碍访问能力。
衍生相关工作
基于CommonForms的开放数据与基准,衍生出多项表单处理创新研究。FFDNet系列模型作为典型代表,验证了高分辨率输入对细粒度字段检测的重要性。该数据集还促进了与文档布局分析(如DocLayNet)、表格检测(TableBank)等任务的跨领域融合,推动LayoutParser等统一工具框架的演进。后续研究进一步探索了多模态表单语义建模、低资源语言增强等方向,形成了完整的文档智能技术生态。
以上内容由遇见数据集搜集并总结生成



