lcolonn/patfig
收藏Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/lcolonn/patfig
下载链接
链接失效反馈官方服务:
资源简介:
PatFig数据集是一个精选的专利图像集合,包含来自2020年7,000多个欧洲专利申请的超过18,000个专利图像。该数据集旨在为图像字幕、抽象推理、专利分析和自动化文档处理的研究和应用提供全面的资源。数据集包括技术图纸、框图、流程图、图表和灰度照片,每个图像都配有短长标题、参考数字、相关术语和一组最小的权利要求。数据集根据国际专利分类系统分类,适用于专利图像分析、文档图像处理、视觉问答任务和技术背景下的图像字幕。
The PatFig Dataset is a curated collection of over 18,000 patent images from European patent applications in 2020. It includes various types of images such as technical drawings, block diagrams, and grayscale photographs, each accompanied by detailed captions and metadata. The dataset is categorized by the International Patent Classification (IPC) system, making it suitable for research in image captioning, visual question answering, and patent analysis. It is licensed under CC BY-NC 4.0, allowing non-commercial use only.
提供机构:
lcolonn
原始信息汇总
PatFig Dataset
概述
PatFig数据集是一个包含超过18,000张专利图像的精选集合,来自超过7,000个欧洲专利申请,涵盖2020年。该数据集旨在为图像字幕、抽象推理、专利分析和自动化文档处理等研究提供全面的资源。
数据集结构
- 图像文件:包括技术绘图、块图、流程图、图表和灰度照片。
- 字幕:每个图像都附有简短和详细的描述字幕。
- 参考编号和术语:图像中的关键组件通过参考编号与其描述相链接。
- 最小集的声明:总结每个图像中元素之间交互的声明句子。
- 元数据:包括图像名称、出版编号、标题、图表标识符等。
分类
数据集根据国际专利分类(IPC)系统进行分类,确保技术领域的多样性。
使用场景
PatFig数据集适用于专利图像分析、文档图像处理、视觉问答任务和图像字幕生成等技术场景。
数据集信息
-
特征:
image: 图像image_name: 图像名称pub_number: 出版编号title: 标题figs_norm: 标准化图表short_description: 简短描述long_description: 详细描述short_description_token_count: 简短描述的词数long_description_token_count: 详细描述的词数draft_class: 草稿类别cpc_class: CPC类别relevant_terms: 相关术语element_identifier: 元素标识符terms: 术语
associated_claims: 相关声明compound: 是否为复合图references: 参考文献
-
分割:
train: 17386个样本,1998632864.066字节test: 998个样本,118291788字节
-
下载大小:1735361199字节
-
数据集大小:2116924652.066字节
许可证
该数据集在Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证下发布,仅限非商业用途。
搜集汇总
数据集介绍

构建方式
在专利文献处理与人工智能的交叉领域中,PatFig数据集应运而生。该数据集通过自动化流程构建,基于高性能机器学习与深度学习方法,从2020年公开的7000余件欧洲专利申请中精心筛选并提取了超过18000幅专利图像。每幅图像均附带简短与详细两种描述性标题、与图中引用标号对应的技术术语、关联的权利要求摘要以及丰富的元数据,包括图像名称、公开号、标题与IPC分类等信息。数据集的构建旨在为视觉情境语言理解研究提供高质量、结构化的多模态资源。
特点
PatFig数据集的核心特色在于其多维度、多层次的信息标注体系。它不仅提供了技术图纸、框图、流程图、曲线图乃至灰度照片等多种图像类型,还通过短标题与长描述双重标注机制,实现了从概要到详尽的语义覆盖。尤为独特的是,该数据集将图像中的引用标号与具体术语进行结构化关联,并辅以最小权利要求集合,使视觉元素与文本描述之间形成可追溯的语义桥梁。此外,数据集依据国际专利分类法进行领域划分,确保了技术领域的广泛代表性。
使用方法
该数据集主要面向专利图像分析、文档图像处理、视觉问答以及技术场景下的图像描述等研究任务。用户可通过HuggingFace Datasets库直接加载预划分的训练集与测试集,利用图像字段与对应的文本标注进行多模态模型训练。对于复合图形解读等挑战性场景,建议结合引用标号与术语字段进行细粒度分析。由于数据为自动构建,使用时需注意潜在的噪声干扰,可参考相关论文中的质量评估讨论以优化应用策略。
背景与挑战
背景概述
在专利文献的浩瀚海洋中,技术图纸与示意图承载着发明的精髓,却长期缺乏系统性的视觉-语言关联研究。2023年,由Dana Aubakirova、Kim Gerdes与Lufei Liu等研究者构建的PatFig数据集应运而生,其成果发表于IEEE/CVF国际计算机视觉大会。该数据集精心汇集了来自7000余件欧洲专利申请的逾18000张专利图像,涵盖2020年度的技术图纸、框图、流程图及灰度照片,并依据国际专利分类体系进行多领域标注。其核心研究问题在于推动视觉情境化语言理解向更全面的图文融合方向发展,为图像描述、专利分析与自动化文档处理提供关键基准。PatFig的问世填补了专利领域缺乏大规模、结构化图文数据集的空白,对计算机视觉与自然语言处理的交叉研究产生了深远影响。
当前挑战
PatFig数据集所面临的挑战具有双重性。在领域问题层面,专利图像不同于自然场景,其技术图纸包含复杂的抽象符号、引用数字与多部件交互关系,现有图像描述模型难以准确捕捉这种高度结构化的视觉逻辑,视觉问答任务亦需理解专利特有的技术语境与权利要求。在构建过程中,数据集采用高性能机器学习与深度学习方法自动生成,这不可避免地引入了噪声,如引用数字与术语的匹配误差、复合图像的拆分歧义等。此外,专利图像的多样性——从流程图到化学结构式——要求模型具备跨领域的泛化能力,而当前数据规模尚难以充分覆盖所有技术分支的细微特征,这些因素共同构成了制约该领域发展的核心瓶颈。
常用场景
经典使用场景
PatFig数据集汇聚了超过18,000幅源自2020年欧洲专利申请的附图,涵盖了技术示意图、流程图、框图及灰度照片等多种视觉形态。其最经典的使用场景在于专利图像描述生成,研究者可借助该数据集训练模型,为每幅附图生成精准的短描述与长描述,进而实现对专利技术内容的自动化解读。此外,该数据集还深度支持视觉问答任务,通过将附图与关联的权利要求文本及术语相结合,推动模型在复杂技术语境下进行推理与应答,为专利信息检索与知识挖掘提供了坚实的基准平台。
实际应用
在实际应用层面,PatFig数据集赋能了专利审查与知识产权管理的智能化转型。基于该数据集开发的图像描述系统能够自动生成专利附图的文字说明,显著提升审查员检索相关先前技术的效率。同时,在技术竞争情报分析中,企业可通过视觉问答模型快速解读竞争对手专利中的核心结构,辅助研发决策。此外,该数据集还适用于自动化文档处理,助力将非结构化的专利图像转化为结构化知识库,为法律分析与创新评估提供数据支撑。
衍生相关工作
PatFig数据集自发布以来,衍生了一系列具有影响力的研究工作。其原始论文《PatFig: Generating Short and Long Captions for Patent Figures》发表于ICCV 2023,首次系统性地定义了专利图像描述任务。后续工作以此为基础,探索了专利图像中复合附图的分割与标注优化,以及基于对比学习的多模态表示方法。此外,研究者还借鉴其数据构建流程,扩展至跨语言专利分析领域,推动了全球专利信息自动化处理技术的发展,形成了围绕专利视觉理解的活跃研究生态。
以上内容由遇见数据集搜集并总结生成



