PEDANTIC

github2025-06-06 更新2025-06-11 收录

下载链接：

https://github.com/boschresearch/pedantic-patentsemtech

下载链接

链接失效反馈

官方服务：

资源简介：

PEDANTIC（专利明确性审查语料库）是一个新颖的数据集，包含14k个美国专利申请中与自然语言处理（NLP）相关的专利权利要求，标注了不明确的原因。该数据集通过一个全自动的流程构建，该流程从USPTO检索办公室行动文件，并使用大型语言模型（LLMs）提取不明确的原因。人类验证研究证实了该流程在生成高质量注释方面的准确性。PEDANTIC为专利AI研究人员提供了宝贵的资源，支持开发高级审查模型。

PEDANTIC (Patent Explicitness Disambiguation Corpus) is an innovative dataset that encompasses 14k patent applications from the United States with related patent claims in natural language processing (NLP), annotated with the reasons for ambiguity. The dataset is constructed through an automated process that retrieves office action documents from the USPTO and employs large language models (LLMs) to extract the reasons for ambiguity. Human validation studies have confirmed the accuracy of this process in generating high-quality annotations. PEDANTIC provides a valuable resource for patent AI researchers, supporting the development of advanced review models.

创建时间：

2025-06-06

原始信息汇总

PEDANTIC: 专利权利要求明确性自动检查数据集

数据集概述

名称: PEDANTIC (Patent Definiteness Examination Corpus)
用途: 用于专利权利要求明确性自动检查研究
领域: 自然语言处理(NLP)相关专利
数据量: 14,000条美国专利权利要求
标注内容: 专利权利要求中的不明确性原因

数据来源与构建

来源: 美国专利商标局(USPTO)的审查意见文件
构建方法: 全自动流程
- 使用大型语言模型(LLMs)提取不明确性原因
质量验证: 人工验证研究确认标注质量

研究价值

填补空白: 首个针对专利明确性检查的公开标注数据集
应用潜力: 可提高专利起草和审查效率
评估方法: 实现了LLM-as-Judge评估框架
- 比较模型与审查员提出的不明确性原因

技术验证

基准测试:
- Qwen 2.5 32B和72B模型表现
- 与逻辑回归基线的比较结果
发现: 尽管LLM能正确识别原因，但难以超越基线模型

许可信息

代码许可: MIT许可证
数据许可: CC-BY 4.0

状态说明

当前状态: 数据集和实验代码即将发布

搜集汇总

数据集介绍

构建方式

在专利法律领域，明确性审查是专利申请通过的关键环节。PEDANTIC数据集通过自动化流程构建，首先从美国专利商标局（USPTO）检索办公室行动文件，随后利用大语言模型（LLM）自动提取专利权利要求中的不明确原因。为确保标注质量，研究团队进行了人工验证，证实该自动化流程能够生成高质量的标注数据。数据集包含14,000条涉及自然语言处理（NLP）领域的美国专利权利要求，为专利AI研究提供了重要资源。

特点

PEDANTIC数据集聚焦于专利权利要求中的明确性问题，其独特之处在于标注了每项权利要求被拒绝的具体原因。数据集覆盖了自然语言处理领域的专利，具有高度的领域针对性。通过LLM-as-Judge评估方法，数据集不仅支持传统的二元分类任务，还能深入分析模型与审查员在自由形式推理上的一致性，为研究提供了更丰富的评估维度。

使用方法

该数据集适用于开发专利明确性自动审查模型。研究人员可利用其标注的不明确原因训练分类器或生成模型，提升专利审查效率。数据集支持多种评估方式，包括传统分类指标和基于LLM的推理对比分析。使用前需注意遵守CC-BY许可协议，确保在学术和商业应用中正确引用数据来源。

背景与挑战

背景概述

专利权利要求作为界定发明保护范围的核心法律文件，其表述的明确性直接影响专利申请的审查结果。PEDANTIC数据集由专注于专利人工智能研究的团队于2024年构建，旨在解决美国专利法第112条(b)款中关于权利要求明确性审查的自动化难题。该数据集收录了14,000条涉及自然语言处理技术的美国专利申请权利要求，通过创新性地整合美国专利商标局(USPTO)的审查文件与大型语言模型标注技术，首次系统性地构建了包含明确性缺陷原因的标注体系。作为专利文本挖掘领域的重要资源，PEDANTIC为提升专利撰写质量和审查效率提供了关键的数据支撑，推动了法律自然语言处理技术在知识产权领域的应用发展。

当前挑战

专利权利要求明确性判定面临双重挑战：在领域问题层面，法律文本固有的模糊性与技术术语的复杂性导致传统分类模型难以准确识别'不明确'的语义边界；标注过程中，审查意见的非结构化特征要求开发创新的自动标注流程，研究团队通过结合大型语言模型与人工验证的方式解决标注一致性问题。模型评估方面，即便Qwen 2.5等先进大语言模型能识别缺陷原因，其在二元分类任务中的表现仍逊于传统逻辑回归模型，揭示出现有技术在法律语义理解与规则应用结合上的局限性。

常用场景

经典使用场景

在专利法律与自然语言处理的交叉领域，PEDANTIC数据集为研究者提供了一个标准化的评估平台，用于自动检测专利权利要求中的模糊性。专利审查过程中，权利要求书的明确性直接关系到专利能否获得授权。该数据集通过标注了14k条美国专利权利要求中的模糊性原因，使得研究者能够训练和验证机器学习模型，以识别和分类专利文本中的不明确表述。这一场景不仅推动了专利审查自动化的研究，也为专利撰写者提供了反馈工具，帮助其优化权利要求书的表述。

解决学术问题

PEDANTIC数据集解决了专利法律与自然语言处理领域中的关键问题，即如何自动识别专利权利要求中的模糊性。传统上，专利审查依赖人工判断，效率低下且主观性强。该数据集通过标注大量专利权利要求中的模糊性原因，为研究者提供了训练数据，支持开发高效的自动审查模型。其意义在于降低了专利审查的成本和时间，同时提高了审查的客观性和一致性。此外，该数据集还为研究专利法律语言的特性提供了宝贵资源，推动了法律与人工智能的跨学科研究。

衍生相关工作

PEDANTIC数据集的发布催生了一系列相关研究，尤其是在专利文本自动分析与法律自然语言处理领域。基于该数据集，研究者开发了多种机器学习模型，从传统的逻辑回归到基于大型语言模型（LLM）的代理系统，尝试解决专利模糊性检测问题。部分研究进一步探索了专利文本的语义理解，提出了结合法律知识的增强模型。这些工作不仅扩展了数据集的用途，也为专利自动化审查提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集