PatFigVQA, PatFigCLS

Name: PatFigVQA, PatFigCLS
Creator: 德国汉诺威莱布尼茨科学与技术信息中心, 德国汉诺威莱布尼茨大学L3S研究中心
Published: 2025-01-22T17:39:05+08:00

arXiv2025-01-22 更新2025-01-24 收录

图分类

视觉问答

数据链接：

https://github.com/TIBHannover/patent-figure-classification 数据链接链接失效反馈

官方服务：

资源简介：

PatFigVQA和PatFigCLS是由德国汉诺威莱布尼茨科学与技术信息中心创建的两个数据集，旨在通过视觉问答（VQA）和分类任务来提升专利图的分类效果。PatFigCLS数据集包含35,926个专利图，分为10种类型，数据来源于扩展的CLEF-IP 2011数据集和DeepPatent2数据集。数据集的创建过程包括对专利图的类型、投影、对象和USPC类别的分类，并通过规则匹配和聚类方法对数据进行标准化处理。该数据集主要用于专利检索系统中的多面搜索，帮助专利审查员更高效地找到相关专利。

PatFigVQA and PatFigCLS are two datasets developed by the Leibniz Information Centre for Science and Technology (TIB) Hannover, Germany. These datasets are designed to improve the classification performance of patent figures through visual question answering (VQA) and classification tasks. The PatFigCLS dataset consists of 35,926 patent figures categorized into 10 types, with data sourced from the extended CLEF-IP 2011 dataset and the DeepPatent2 dataset. The creation process for these datasets includes classifying patent figures by their type, projection, objects, and USPC categories, as well as standardizing the data via rule-based matching and clustering methods. This dataset is primarily used for faceted search in patent retrieval systems, helping patent examiners find relevant patents more efficiently.

提供机构：

德国汉诺威莱布尼茨科学与技术信息中心, 德国汉诺威莱布尼茨大学L3S研究中心

创建时间：

2025-01-22

原始信息汇总

数据集概述

数据集名称

Patent Figure Classification using Large Vision-language Models

数据集来源

该数据集是论文《Patent Figure Classification using Large Vision-language Models》的官方GitHub页面，作者为Sushil Awale, Eric Müller-Budack, Ralph Ewerth。

数据集相关论文

论文标题: Patent Figure Classification using Large Vision-language Models
会议: European Conference on Information Retrieval (ECIR)
会议地点: Lucca, Italy
会议时间: 2025年

数据集状态

当前状态: 该仓库即将更新，详细信息将在未来发布。

搜集汇总

数据集介绍

构建方式

PatFigVQA和PatFigCLS数据集的构建基于现有的专利图像分类数据集，如扩展的CLEF-IP 2011和DeepPatent2。通过将这些数据集中的图像分类信息转化为视觉问答（VQA）任务，生成了PatFigVQA数据集。具体而言，PatFigCLS数据集包含了多个方面的分类标签（如类型、投影、专利类别和对象），并通过手动设计的自然语言问题模板，将每个样本转化为VQA任务中的问题-答案对。对于投影和对象分类，采用了规则化的关键词匹配和聚类方法，确保概念的标准化和一致性。

特点

PatFigVQA和PatFigCLS数据集的特点在于其多方面的分类任务和多样化的问答形式。数据集涵盖了专利图像的多个分类维度，包括类型、投影、专利类别和对象，且每个维度下包含大量细粒度的类别。此外，PatFigVQA数据集通过设计三种不同类型的问题（二元问题、多选题和开放式问题），提供了丰富的问答形式，能够有效评估大视觉语言模型（LVLM）在不同任务场景下的表现。数据集中的专利图像多为二值或灰度图像，具有抽象性和稀疏性，与自然图像存在显著差异，这为模型在专利领域的适应性提出了挑战。

使用方法

PatFigVQA和PatFigCLS数据集主要用于评估和微调大视觉语言模型（LVLM）在专利图像分类和视觉问答任务中的表现。用户可以通过微调预训练的LVLM模型（如InstructBLIP）来适应专利图像的特征，并在零样本或少样本学习场景下进行实验。数据集中的问题模板和分类策略（如二元分类、开放式分类和锦标赛式多选分类）为模型提供了多样化的任务形式。用户可以通过比较不同分类方法（如LVLM与卷积神经网络）的性能，探索模型在专利图像分类中的潜力。此外，数据集还支持语义等价性评估，进一步验证模型在复杂分类任务中的表现。

背景与挑战

背景概述

PatFigVQA和PatFigCLS数据集由Sushil Awale、Eric Müller-Budack和Ralph Ewerth等研究人员于2025年提出，旨在解决专利图像分类和视觉问答（VQA）任务中的关键问题。专利图像通常以二值或灰度形式呈现，用于展示技术图纸、图表等，其分类有助于提高专利检索系统的效率。现有方法多局限于单一分类任务或有限的概念类别，而大型视觉语言模型（LVLM）在计算机视觉任务中表现出色，但在专利图像分类中的应用尚未得到充分探索。该研究通过引入PatFigVQA和PatFigCLS数据集，探索了LVLM在零样本和少样本学习场景下的表现，并提出了基于多轮选择题的锦标赛式分类策略，显著提升了分类效率。

当前挑战

PatFigVQA和PatFigCLS数据集在构建和应用过程中面临多重挑战。首先，专利图像与自然图像存在显著差异，其背景单一、抽象性强且包含大量专业投影（如爆炸图、剖面图等），这增加了分类的难度。其次，现有方法多局限于少量类别，而专利图像分类需要处理大量类别，这对模型的扩展性和计算效率提出了更高要求。此外，LVLM在专利图像分类中的应用尚处于探索阶段，如何通过少样本学习弥合预训练模型与专利领域之间的差距，仍是一个亟待解决的问题。最后，数据集的构建需要对专利图像进行多维度标注（如类型、投影、专利类别等），这一过程复杂且耗时，进一步增加了数据集的构建难度。

常用场景

经典使用场景

PatFigVQA和PatFigCLS数据集主要用于专利图像的多方面分类和视觉问答任务。这些数据集通过结合大规模视觉-语言模型（LVLM），能够在零样本和少样本学习场景下对专利图像进行高效分类。具体而言，PatFigVQA数据集通过视觉问答的形式，帮助模型理解专利图像的类型、投影、专利类别和对象等多维度信息，而PatFigCLS则专注于专利图像的分类任务，支持对大量类别的有效处理。

衍生相关工作

PatFigVQA和PatFigCLS数据集的推出，激发了大量相关研究工作。例如，基于这些数据集的研究进一步探索了大规模视觉-语言模型在专利图像分类中的潜力，提出了多种改进的分类策略和模型架构。此外，这些数据集还被用于开发专利图像的多模态检索系统，结合文本和图像信息，提升专利检索的准确性和效率。相关研究还推动了专利图像自动标注和语义理解技术的发展，为专利分析领域提供了新的工具和方法。

数据集最近研究