five

PatFigVQA, PatFigCLS

收藏
arXiv2025-01-22 更新2025-01-24 收录
下载链接:
https://github.com/TIBHannover/patent-figure-classification
下载链接
链接失效反馈
官方服务:
资源简介:
PatFigVQA和PatFigCLS是由德国汉诺威莱布尼茨科学与技术信息中心创建的两个数据集,旨在通过视觉问答(VQA)和分类任务来提升专利图的分类效果。PatFigCLS数据集包含35,926个专利图,分为10种类型,数据来源于扩展的CLEF-IP 2011数据集和DeepPatent2数据集。数据集的创建过程包括对专利图的类型、投影、对象和USPC类别的分类,并通过规则匹配和聚类方法对数据进行标准化处理。该数据集主要用于专利检索系统中的多面搜索,帮助专利审查员更高效地找到相关专利。
提供机构:
德国汉诺威莱布尼茨科学与技术信息中心, 德国汉诺威莱布尼茨大学L3S研究中心
创建时间:
2025-01-22
原始信息汇总

数据集概述

数据集名称

Patent Figure Classification using Large Vision-language Models

数据集来源

该数据集是论文《Patent Figure Classification using Large Vision-language Models》的官方GitHub页面,作者为Sushil Awale, Eric Müller-Budack, Ralph Ewerth。

数据集相关论文

  • 论文标题: Patent Figure Classification using Large Vision-language Models
  • 会议: European Conference on Information Retrieval (ECIR)
  • 会议地点: Lucca, Italy
  • 会议时间: 2025年

数据集状态

  • 当前状态: 该仓库即将更新,详细信息将在未来发布。
搜集汇总
数据集介绍
main_image_url
构建方式
PatFigVQA和PatFigCLS数据集的构建基于现有的专利图像分类数据集,如扩展的CLEF-IP 2011和DeepPatent2。通过将这些数据集中的图像分类信息转化为视觉问答(VQA)任务,生成了PatFigVQA数据集。具体而言,PatFigCLS数据集包含了多个方面的分类标签(如类型、投影、专利类别和对象),并通过手动设计的自然语言问题模板,将每个样本转化为VQA任务中的问题-答案对。对于投影和对象分类,采用了规则化的关键词匹配和聚类方法,确保概念的标准化和一致性。
特点
PatFigVQA和PatFigCLS数据集的特点在于其多方面的分类任务和多样化的问答形式。数据集涵盖了专利图像的多个分类维度,包括类型、投影、专利类别和对象,且每个维度下包含大量细粒度的类别。此外,PatFigVQA数据集通过设计三种不同类型的问题(二元问题、多选题和开放式问题),提供了丰富的问答形式,能够有效评估大视觉语言模型(LVLM)在不同任务场景下的表现。数据集中的专利图像多为二值或灰度图像,具有抽象性和稀疏性,与自然图像存在显著差异,这为模型在专利领域的适应性提出了挑战。
使用方法
PatFigVQA和PatFigCLS数据集主要用于评估和微调大视觉语言模型(LVLM)在专利图像分类和视觉问答任务中的表现。用户可以通过微调预训练的LVLM模型(如InstructBLIP)来适应专利图像的特征,并在零样本或少样本学习场景下进行实验。数据集中的问题模板和分类策略(如二元分类、开放式分类和锦标赛式多选分类)为模型提供了多样化的任务形式。用户可以通过比较不同分类方法(如LVLM与卷积神经网络)的性能,探索模型在专利图像分类中的潜力。此外,数据集还支持语义等价性评估,进一步验证模型在复杂分类任务中的表现。
背景与挑战
背景概述
PatFigVQA和PatFigCLS数据集由Sushil Awale、Eric Müller-Budack和Ralph Ewerth等研究人员于2025年提出,旨在解决专利图像分类和视觉问答(VQA)任务中的关键问题。专利图像通常以二值或灰度形式呈现,用于展示技术图纸、图表等,其分类有助于提高专利检索系统的效率。现有方法多局限于单一分类任务或有限的概念类别,而大型视觉语言模型(LVLM)在计算机视觉任务中表现出色,但在专利图像分类中的应用尚未得到充分探索。该研究通过引入PatFigVQA和PatFigCLS数据集,探索了LVLM在零样本和少样本学习场景下的表现,并提出了基于多轮选择题的锦标赛式分类策略,显著提升了分类效率。
当前挑战
PatFigVQA和PatFigCLS数据集在构建和应用过程中面临多重挑战。首先,专利图像与自然图像存在显著差异,其背景单一、抽象性强且包含大量专业投影(如爆炸图、剖面图等),这增加了分类的难度。其次,现有方法多局限于少量类别,而专利图像分类需要处理大量类别,这对模型的扩展性和计算效率提出了更高要求。此外,LVLM在专利图像分类中的应用尚处于探索阶段,如何通过少样本学习弥合预训练模型与专利领域之间的差距,仍是一个亟待解决的问题。最后,数据集的构建需要对专利图像进行多维度标注(如类型、投影、专利类别等),这一过程复杂且耗时,进一步增加了数据集的构建难度。
常用场景
经典使用场景
PatFigVQA和PatFigCLS数据集主要用于专利图像的多方面分类和视觉问答任务。这些数据集通过结合大规模视觉-语言模型(LVLM),能够在零样本和少样本学习场景下对专利图像进行高效分类。具体而言,PatFigVQA数据集通过视觉问答的形式,帮助模型理解专利图像的类型、投影、专利类别和对象等多维度信息,而PatFigCLS则专注于专利图像的分类任务,支持对大量类别的有效处理。
衍生相关工作
PatFigVQA和PatFigCLS数据集的推出,激发了大量相关研究工作。例如,基于这些数据集的研究进一步探索了大规模视觉-语言模型在专利图像分类中的潜力,提出了多种改进的分类策略和模型架构。此外,这些数据集还被用于开发专利图像的多模态检索系统,结合文本和图像信息,提升专利检索的准确性和效率。相关研究还推动了专利图像自动标注和语义理解技术的发展,为专利分析领域提供了新的工具和方法。
数据集最近研究
最新研究方向
近年来,随着大视觉语言模型(LVLMs)在计算机视觉下游任务中的卓越表现,专利图像分类领域也迎来了新的研究热潮。专利图像分类在专利检索系统中具有重要应用,能够通过多面搜索提高检索效率。然而,现有方法多局限于单一类别或有限概念的分类。近期研究聚焦于利用LVLMs进行专利图像的视觉问答(VQA)和分类任务,特别是在零样本和少样本学习场景下的表现。通过引入新的数据集PatFigVQA和PatFigCLS,研究探索了LVLMs在专利图像类型、投影、专利类别和对象等多方面的分类能力。此外,研究提出了一种基于锦标赛策略的分类方法,通过一系列选择题有效处理大规模类别分类问题。实验结果表明,基于LVLMs的分类方法在少样本设置下表现出色,尤其在类型和美国专利分类(USPC)方面超越了传统的卷积神经网络(CNN)分类器。这一研究不仅推动了专利图像分类技术的发展,也为多模态信息处理提供了新的思路。
相关研究论文
  • 1
    Patent Figure Classification using Large Vision-language Models德国汉诺威莱布尼茨科学与技术信息中心, 德国汉诺威莱布尼茨大学L3S研究中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作