专利新颖性评估数据集

Name: 专利新颖性评估数据集
Creator: 卡内基梅隆大学语言技术研究所
Published: 2025-02-10 18:09:29
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06316v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是专门为评估专利新颖性而设计的，包含了实际专利审查案例中专利声明与所引用先前艺术文档的对。数据集来源于美国专利商标局（USPTO）的审查案例，涵盖了2014至2015年间申请的、属于IPC G06F2技术领域的专利。数据集由专利声明和引用的先前艺术文档组成，分为未经修改的原始声明（标记为'非新颖'）和经过修改后的声明（标记为'新颖'），旨在解决专利审查中的新颖性评估问题。

This dataset is specifically designed for evaluating patent novelty, and contains pairs of patent claims and their cited prior art documents from real patent examination cases. It is sourced from examination cases of the United States Patent and Trademark Office (USPTO), covering patents filed between 2014 and 2015 that belong to the IPC G06F2 technical domain. The dataset, which consists of patent claims and their cited prior art documents, is categorized into two groups: unmodified original claims marked as 'non-novel' and revised claims marked as 'novel', with the goal of addressing the novelty assessment issue in patent examination.

提供机构：

卡内基梅隆大学语言技术研究所

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

专利新颖性评估数据集构建于真实专利审查案例之上，旨在评估大型语言模型（LLMs）在专利新颖性评估方面的能力。数据集从美国专利商标局（USPTO）的API和谷歌专利公共数据中提取，涵盖了2014年至2015年期间申请的专利，技术领域限定为IPC G06F2，该领域在所有IPC子类中占比最大。数据集包括非新颖性标签的原始专利申请文本和引用的专利文献段落文本，以及新颖性标签的最终修改后专利申请文本和引用的专利文献段落文本。在构建数据集的过程中，通过将数据分为多个组并随机过滤，以保持标签比例的平衡，解决了由于专利申请文本长度导致的偏差问题。

特点

该数据集的特点在于其真实性和复杂性。它基于实际的专利审查案例，包含了专利申请文本和引用的专利文献段落文本，这些文本在专利审查过程中被多次比较。数据集的构建过程考虑到了专利申请文本长度的偏差问题，通过将数据分为多个组并随机过滤，以保持标签比例的平衡。此外，数据集还包括了新颖性标签的最终修改后专利申请文本和引用的专利文献段落文本，这些文本在专利审查过程中被多次比较，从而提供了更多的上下文信息。

使用方法

专利新颖性评估数据集的使用方法包括两个输入条件：仅专利申请文本（C）输入和专利申请文本与引用的专利文献段落文本（C-T）输入。仅专利申请文本输入条件用于评估模型在仅基于专利申请文本的情况下预测专利新颖性的能力。专利申请文本与引用的专利文献段落文本输入条件用于评估模型在考虑专利申请文本和引用的专利文献段落文本之间的关系的情况下预测专利新颖性的能力。在实验中，我们使用了分类头和文本生成两种方法来评估模型的能力。分类头方法在模型的顶层添加一个分类头，用于预测专利申请的新颖性。文本生成方法使用不同的提示来指导模型进行预测，并生成解释。通过这种方式，我们可以评估模型在预测专利新颖性方面的准确性和解释能力。

背景与挑战

背景概述

在专利分析领域，评估专利申请的新颖性是一项关键且具有挑战性的任务。传统上，这项工作由经过严格训练的专利审查员负责。随着自然语言处理（NLP）技术的进步，虽然各种与专利相关的任务取得了进展，但新颖性评估仍然是一个未被充分探索的领域。本研究旨在评估大型语言模型（LLMs）评估专利新颖性的能力，通过将专利声明与引用的现有技术文档进行比较，模拟专利审查员的工作流程。本研究提出了第一个专门设计用于新颖性评估的数据集，该数据集来源于真实的专利审查案例，并分析了LLMs在解决这一任务方面的能力。研究结果表明，虽然分类模型在有效评估新颖性方面存在困难，但生成模型能够在合理的准确度水平上进行预测，并且其解释足够准确，可以理解目标专利与现有技术之间的关系。这些发现表明，LLMs有可能辅助专利评估，减轻审查员和申请人的工作负担。本研究突出了当前模型的局限性，并通过先进的模型和精细化的数据集，为改进AI驱动的专利分析奠定了基础。

当前挑战

专利新颖性评估数据集面临的挑战主要包括：1) 领域问题挑战：专利新颖性评估需要比较发明与现有技术，这是一个复杂的过程，涉及到技术细节、法律定义和创造性判断。2) 构建挑战：构建数据集时需要处理大量的专利文档，并进行有效的数据清洗和标注，以确保数据的质量和可用性。

常用场景

经典使用场景

专利新颖性评估数据集（Patent Novelty Evaluation Dataset）被广泛应用于评估专利申请的新颖性，这是专利审查过程中的一个关键环节。通过对比专利申请中的权利要求与引用的现有技术文档，该数据集帮助研究人员和专利审查员判断一项发明是否具有新颖性。

衍生相关工作

专利新颖性评估数据集的提出，衍生了一系列相关研究。例如，基于该数据集，研究人员可以探索如何利用人工智能技术提高专利审查的效率和准确性，或者如何利用专利数据集进行其他相关研究。此外，该数据集还可以为专利领域的智能化发展提供数据支持，推动专利领域的创新。

数据集最近研究