PatentMatch

Name: PatentMatch
Creator: 哈索·普拉特纳研究所，波茨坦大学，德国
Published: 2020-12-27 19:22:25
License: 暂无描述

arXiv2020-12-27 更新2024-06-21 收录

下载链接：

https://hpi.de/naumann/s/patentmatch

下载链接

链接失效反馈

官方服务：

资源简介：

PatentMatch数据集由哈索·普拉特纳研究所创建，包含6259703对专利申请中的权利要求与先前技术文档中的语义对应文本段落。数据集通过欧洲专利局的专利审查员标注，用于训练机器学习算法以辅助专利审查员进行先前技术搜索。该数据集不仅展示了专家如何解决复杂的检索问题，还为自动化先前技术检索提供了基础。数据集的应用领域主要集中在自动化专利分析和提高专利审查效率，旨在解决专利审查过程中的信息检索难题。

The PatentMatch dataset was developed by the Hasso Plattner Institute, which contains 6,259,703 pairs of semantically matching text passages between the claims of patent applications and prior art documents. Annotated by patent examiners of the European Patent Office (EPO), this dataset is designed to train machine learning algorithms to assist patent examiners in conducting prior art searches. It not only demonstrates how experts tackle complex retrieval problems, but also provides a foundational resource for automated prior art retrieval. Its application areas primarily focus on automated patent analysis and improving patent examination efficiency, with the core objective of resolving information retrieval challenges encountered during the patent examination process.

提供机构：

哈索·普拉特纳研究所，波茨坦大学，德国

创建时间：

2020-12-27

搜集汇总

数据集介绍

构建方式

在专利信息检索领域，构建高质量数据集对于训练自动化系统至关重要。PATENTMATCH数据集的构建基于欧洲专利局（EPO）自2012年起提供的全文数据及检索报告。研究团队通过解析XML格式的专利文档，提取专利申请中的权利要求文本，并依据检索报告中专利审查员标注的引用段落信息，将权利要求与对应的先验技术段落进行配对。这些引用段落被标记为“X”类（破坏新颖性）或“A”类（仅技术背景），从而形成带有语义对应标签的文本对。数据处理过程中，利用Elasticsearch存储和检索大规模文本，并对段落引用格式进行标准化处理，最终生成包含超过625万样本的监督学习数据集。

特点

PATENTMATCH数据集在专利文本分析领域展现出显著特点。其核心在于提供了大规模、高质量的权利要求与先验技术段落配对样本，所有标签均由欧洲专利局的专利审查员专业标注，确保了语义对应关系的权威性。数据集涵盖两种关键类别：“X”类样本代表破坏权利要求新颖性的段落，而“A”类样本则代表仅提供技术背景的段落，这为训练二元分类模型提供了清晰的学习目标。此外，数据集还提供了平衡版本，通过下采样调整标签分布，以适应不同机器学习场景的需求，同时所有数据均基于申请时间划分训练集与测试集，保障了评估的时序合理性。

使用方法

该数据集主要用于支持专利先验技术检索中的段落匹配任务，可应用于监督机器学习模型的训练与评估。研究人员可利用数据集中的权利要求文本和对应段落，构建二元文本对分类模型，以自动判断给定段落是否破坏权利要求的新颖性。数据集提供的平衡版本有助于缓解类别不平衡问题，提升模型泛化能力。初步实验已展示使用BERT等预训练模型进行微调的可行性，尽管任务因专利领域专业语言和复杂法律术语而极具挑战性。数据集附带示例代码和详细文档，支持研究者快速开展实验，并促进专利检索自动化技术的比较与创新。

背景与挑战

背景概述

在专利审查领域，评估专利申请的新颖性和创造性步骤是一项复杂的信息检索任务，审查员需在浩如烟海的公开文献中搜寻相关现有技术。为应对这一挑战，由德国波茨坦大学哈索·普拉特纳研究所的Julian Risch等人于近年创建的PATENTMATCH数据集应运而生。该数据集基于欧洲专利局提供的全文数据构建，包含了超过六百万个由专业审查员标注的专利权利要求与现有技术文本段落配对样本，核心研究问题聚焦于专利权利要求与现有技术之间的语义匹配，旨在为监督机器学习提供训练资源，以辅助自动化专利检索。这一数据集的推出，不仅为专利分析领域注入了新的研究动力，也为深入理解专利审查实践提供了宝贵的数据基础。

当前挑战

PATENTMATCH数据集旨在解决专利检索中的核心挑战，即自动化识别专利权利要求与现有技术文本之间的语义对应关系，以判断新颖性是否被破坏。这一任务面临多重困难：专利文本通常包含高度专业的技术术语和法律行话，语义理解极为复杂；且检索过程更注重精确度而非召回率，因为单一破坏新颖性的文献就足以驳回申请。在数据集构建过程中，挑战同样显著：原始搜索报告格式非结构化且不一致，需进行复杂的解析与标准化处理；引用段落可能涉及文本、图表或整个文档，必须筛选出纯文本段落；同时，处理海量专利数据（约210GB）并准确匹配权利要求与段落，对数据工程提出了较高要求。这些因素共同构成了该数据集在应用与构建层面的双重挑战。

常用场景

经典使用场景

在专利审查领域，专利审查员需要评估专利申请中权利要求的新颖性和创造性步骤，这是一项复杂的信息检索任务。PATENTMATCH数据集通过提供由欧洲专利局专业审查员标注的权利要求与现有技术文本段落配对，为监督式机器学习模型训练提供了基础。该数据集最经典的使用场景是训练二元文本对分类器，以自动识别给定权利要求与现有技术段落之间的语义对应关系，从而辅助审查员高效检索可能破坏新颖性的相关文献，减轻其繁重的手动搜索负担。

衍生相关工作

PATENTMATCH数据集的发布催生了多项经典研究工作，尤其是在专利段落检索和语义匹配领域。例如，研究人员利用该数据集训练了基于BERT的文本对分类模型，探索深度学习在专利语言理解中的应用。此外，该数据集还启发了对专利审查员搜索行为的分析研究，以及开发自适应查询扩展方法以提高检索召回率。这些工作不仅深化了专利信息检索的理论基础，还为构建更智能的专利分析工具提供了实践指导，推动了专利领域人工智能技术的持续发展。

数据集最近研究