PatFigVQA, PatFigCLS

Name: PatFigVQA, PatFigCLS
Creator: 德国汉诺威莱布尼茨科学与技术信息中心, 德国汉诺威莱布尼茨大学L3S研究中心
Published: 2025-01-22 17:39:05
License: 暂无描述

arXiv2025-01-22 更新2025-01-24 收录

下载链接：

https://github.com/TIBHannover/patent-figure-classification

下载链接

链接失效反馈

官方服务：

资源简介：

PatFigVQA和PatFigCLS是由德国汉诺威莱布尼茨科学与技术信息中心创建的两个数据集，旨在通过视觉问答（VQA）和分类任务来提升专利图的分类效果。PatFigCLS数据集包含35,926个专利图，分为10种类型，数据来源于扩展的CLEF-IP 2011数据集和DeepPatent2数据集。数据集的创建过程包括对专利图的类型、投影、对象和USPC类别的分类，并通过规则匹配和聚类方法对数据进行标准化处理。该数据集主要用于专利检索系统中的多面搜索，帮助专利审查员更高效地找到相关专利。

提供机构：

德国汉诺威莱布尼茨科学与技术信息中心, 德国汉诺威莱布尼茨大学L3S研究中心

创建时间：

2025-01-22

原始信息汇总

数据集概述

数据集名称

Patent Figure Classification using Large Vision-language Models

数据集来源

该数据集是论文《Patent Figure Classification using Large Vision-language Models》的官方GitHub页面，作者为Sushil Awale, Eric Müller-Budack, Ralph Ewerth。

数据集相关论文

论文标题: Patent Figure Classification using Large Vision-language Models
会议: European Conference on Information Retrieval (ECIR)
会议地点: Lucca, Italy
会议时间: 2025年

数据集状态

当前状态: 该仓库即将更新，详细信息将在未来发布。

搜集汇总

数据集介绍

构建方式

PatFigVQA和PatFigCLS数据集的构建基于现有的专利图像分类数据集，如扩展的CLEF-IP 2011和DeepPatent2。通过将这些数据集中的图像分类信息转化为视觉问答（VQA）任务，生成了PatFigVQA数据集。具体而言，PatFigCLS数据集包含了多个方面的分类标签（如类型、投影、专利类别和对象），并通过手动设计的自然语言问题模板，将每个样本转化为VQA任务中的问题-答案对。对于投影和对象分类，采用了规则化的关键词匹配和聚类方法，确保概念的标准化和一致性。

特点

PatFigVQA和PatFigCLS数据集的特点在于其多方面的分类任务和多样化的问答形式。数据集涵盖了专利图像的多个分类维度，包括类型、投影、专利类别和对象，且每个维度下包含大量细粒度的类别。此外，PatFigVQA数据集通过设计三种不同类型的问题（二元问题、多选题和开放式问题），提供了丰富的问答形式，能够有效评估大视觉语言模型（LVLM）在不同任务场景下的表现。数据集中的专利图像多为二值或灰度图像，具有抽象性和稀疏性，与自然图像存在显著差异，这为模型在专利领域的适应性提出了挑战。

使用方法

PatFigVQA和PatFigCLS数据集主要用于评估和微调大视觉语言模型（LVLM）在专利图像分类和视觉问答任务中的表现。用户可以通过微调预训练的LVLM模型（如InstructBLIP）来适应专利图像的特征，并在零样本或少样本学习场景下进行实验。数据集中的问题模板和分类策略（如二元分类、开放式分类和锦标赛式多选分类）为模型提供了多样化的任务形式。用户可以通过比较不同分类方法（如LVLM与卷积神经网络）的性能，探索模型在专利图像分类中的潜力。此外，数据集还支持语义等价性评估，进一步验证模型在复杂分类任务中的表现。

背景与挑战

背景概述

PatFigVQA和PatFigCLS数据集由Sushil Awale、Eric Müller-Budack和Ralph Ewerth等研究人员于2025年提出，旨在解决专利图像分类和视觉问答（VQA）任务中的关键问题。专利图像通常以二值或灰度形式呈现，用于展示技术图纸、图表等，其分类有助于提高专利检索系统的效率。现有方法多局限于单一分类任务或有限的概念类别，而大型视觉语言模型（LVLM）在计算机视觉任务中表现出色，但在专利图像分类中的应用尚未得到充分探索。该研究通过引入PatFigVQA和PatFigCLS数据集，探索了LVLM在零样本和少样本学习场景下的表现，并提出了基于多轮选择题的锦标赛式分类策略，显著提升了分类效率。

当前挑战

PatFigVQA和PatFigCLS数据集在构建和应用过程中面临多重挑战。首先，专利图像与自然图像存在显著差异，其背景单一、抽象性强且包含大量专业投影（如爆炸图、剖面图等），这增加了分类的难度。其次，现有方法多局限于少量类别，而专利图像分类需要处理大量类别，这对模型的扩展性和计算效率提出了更高要求。此外，LVLM在专利图像分类中的应用尚处于探索阶段，如何通过少样本学习弥合预训练模型与专利领域之间的差距，仍是一个亟待解决的问题。最后，数据集的构建需要对专利图像进行多维度标注（如类型、投影、专利类别等），这一过程复杂且耗时，进一步增加了数据集的构建难度。

常用场景

经典使用场景

PatFigVQA和PatFigCLS数据集主要用于专利图像的多方面分类和视觉问答任务。这些数据集通过结合大规模视觉-语言模型（LVLM），能够在零样本和少样本学习场景下对专利图像进行高效分类。具体而言，PatFigVQA数据集通过视觉问答的形式，帮助模型理解专利图像的类型、投影、专利类别和对象等多维度信息，而PatFigCLS则专注于专利图像的分类任务，支持对大量类别的有效处理。

衍生相关工作

PatFigVQA和PatFigCLS数据集的推出，激发了大量相关研究工作。例如，基于这些数据集的研究进一步探索了大规模视觉-语言模型在专利图像分类中的潜力，提出了多种改进的分类策略和模型架构。此外，这些数据集还被用于开发专利图像的多模态检索系统，结合文本和图像信息，提升专利检索的准确性和效率。相关研究还推动了专利图像自动标注和语义理解技术的发展，为专利分析领域提供了新的工具和方法。

数据集最近研究