DeepPatent2

Name: DeepPatent2
Creator: 洛斯阿拉莫斯国家实验室
Published: 2023-11-08 00:14:38
License: 暂无描述

arXiv2023-11-08 更新2024-06-21 收录

下载链接：

https://doi.org/10.7910/DVN/UG4SBD

下载链接

链接失效反馈

官方服务：

资源简介：

DeepPatent2是一个大规模的技术图纸理解基准数据集，由洛斯阿拉莫斯国家实验室创建。该数据集包含超过270万个技术图纸，这些图纸是从2007年至2020年的美国设计专利文档中提取的，每个图纸都配有132,890个对象名称和22,394个视点信息。创建过程中，使用了自然语言处理模型来自动提取对象名称和视点，以及计算机视觉方法来分割复合图纸。DeepPatent2的应用领域包括3D图像重建和图像检索，旨在解决从2D草图中理解技术信息的问题。

DeepPatent2 is a large-scale technical drawing understanding benchmark dataset developed by Los Alamos National Laboratory. This dataset comprises over 2.7 million technical drawings extracted from U.S. design patent documents spanning from 2007 to 2020. Each drawing is paired with 132,890 object names and 22,394 pieces of viewpoint information. During its creation, natural language processing (NLP) models were used to automatically extract object names and viewpoint information, while computer vision methods were employed to segment composite drawings. The application fields of DeepPatent2 include 3D image reconstruction and image retrieval, aiming to address the problem of understanding technical information from 2D sketches.

提供机构：

洛斯阿拉莫斯国家实验室

创建时间：

2023-11-08

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，技术图纸的理解长期受限于数据集的规模与多样性。DeepPatent2的构建采用了系统化的多模态处理流程，从美国专利商标局2007至2020年的设计专利文档中，自动提取了超过270万幅技术图纸。该流程整合了自然语言处理与计算机视觉技术：首先通过序列标注模型从图注中精准识别132,890个对象名称和22,394个视角信息；随后利用基于Transformer的MedT模型对复合图纸进行智能分割，并通过邻近匹配算法将语义标签与分割后的独立图纸对齐。整个构建过程在高质量OCR引擎与迁移学习框架的支持下，实现了大规模专利图纸的结构化解析与语义标注。

使用方法

DeepPatent2为技术图纸理解研究提供了多用途的基准平台。在概念描述生成任务中，研究者可利用其带标注的图纸训练编码器-解码器模型，实现从图纸到文本描述的自动转换。对于三维重建，数据集中同一对象的多视角图纸可用于训练从二维草图推断三维结构的深度学习模型。在图像检索领域，丰富的语义标签支持开发基于内容与文本的多模态检索系统。数据集以按年份组织的压缩文件形式发布，包含PNG格式图像和JSON格式元数据，建议使用PyTorch、OpenCV等工具进行加载与处理，并可通过文件标记轻松筛选或利用标注有误的案例以推动算法改进。

背景与挑战

背景概述

DeepPatent2数据集由Old Dominion大学与洛斯阿拉莫斯国家实验室的研究团队于2023年联合构建，旨在为技术图纸理解领域提供大规模基准语料库。该数据集从2007年至2020年的美国设计专利文件中，自动化提取了超过270万幅技术图纸，涵盖132,890个对象名称与22,394种视角信息。其核心研究聚焦于突破自然图像与简笔草图的数据局限，通过融合计算机视觉与自然语言处理技术，实现对技术图纸的语义解析与多视角重建，为专利检索、三维重建及图像描述生成等任务奠定了数据基础，显著推动了技术文档分析与跨模态理解领域的发展。

当前挑战

DeepPatent2致力于解决技术图纸理解中的核心挑战，包括对抽象线条与稀疏特征图像的精准语义解析，以及从二维图纸中重建三维物体结构的难题。在构建过程中，研究团队面临多重技术障碍：专利图纸中复合图形的自动分割需要高精度算法以分离嵌套个体；光学字符识别引擎需在多样化的图纸布局中准确提取图形标签；文本实体识别模型必须从专业描述中可靠抽离对象名称与视角信息；此外，海量异构数据的对齐与标注误差控制亦构成严峻考验，这些挑战共同塑造了数据集的技术深度与应用边界。

常用场景

经典使用场景

在计算机视觉与专利信息检索领域，技术图纸的理解长期受限于数据规模与语义标注的匮乏。DeepPatent2数据集以其超过270万幅技术图纸、13万余种对象名称及2万余种视角标注，为技术图纸的自动理解提供了大规模基准语料。该数据集最经典的使用场景在于技术图纸的概念性标注任务，即通过深度学习模型自动生成描述图纸中对象及其视角的文本描述。通过在该数据集上训练编码器-解码器架构的模型，研究者能够验证数据规模对模型性能的增益效应，为技术图纸的视觉-文本转换研究奠定基础。

解决学术问题

DeepPatent2数据集有效应对了技术图纸理解领域多个关键学术挑战。其解决了现有草图数据集如QuickDraw等因笔画简略、视角单一而难以支撑细节理解任务的问题，通过提供富含语义信息的多视角图纸，推动了三维重建从二维草图的研究进展。同时，数据集通过自动提取的对象名称与视角标签，为技术图纸的分类、检索与语义理解任务提供了高质量标注，弥补了自然图像数据集与专利图纸之间的领域鸿沟。该数据集的构建方法融合了自然语言处理与计算机视觉技术，为跨模态信息对齐提供了可复现的范式。

实际应用

DeepPatent2数据集在工业与知识产权领域具有广泛的实际应用价值。在专利审查与检索系统中，该数据集可训练模型实现技术图纸的自动分类与语义检索，提升专利查全率与查准率。对于产品设计与创新流程，数据集支持生成式模型合成符合规范的技术图纸，辅助设计人员快速迭代方案。在学术文献与技术文档的多模态摘要生成中，数据集能够帮助选择最具代表性的图纸，增强文档内容的可理解性。此外，数据集还可用于构建专利知识图谱，通过图纸与文本的关联揭示技术演进脉络与创新趋势。

数据集最近研究