five

PEDANTIC

收藏
arXiv2025-05-27 更新2025-05-29 收录
下载链接:
http://arxiv.org/abs/2505.21342v1
下载链接
链接失效反馈
官方服务:
资源简介:
PEDANTIC(专利确定性审查语料库)是一个包含14,000个美国专利申请中与自然语言处理(NLP)相关的专利声明的数据集,这些声明被标注了不确定性的原因。该数据集通过一个全自动的流程构建,该流程从美国专利商标局(USPTO)检索办公室行动文件,并使用大型语言模型(LLMs)提取不确定性原因。数据集包括细粒度的模糊性类别(如“前因基础”)以及每个模糊性原因的自由形式推理和受影响的声明范围。PEDANTIC提供了对专利人工智能研究人员的宝贵资源,使他们能够开发先进的审查模型。数据集和代码将被公开发布,以促进进一步的研究。

PEDANTIC (Patent Definiteness Examination Corpus) is a dataset containing 14,000 natural language processing (NLP)-related patent claims from U.S. patent applications, with each claim annotated with the causes of claim indefiniteness. This dataset is developed through a fully automated pipeline that retrieves office actions from the United States Patent and Trademark Office (USPTO) and leverages Large Language Models (LLMs) to extract the causes of claim indefiniteness. It encompasses fine-grained ambiguity categories (e.g., "antecedent basis"), alongside free-form reasoning for each identified cause of indefiniteness and the specific ranges of affected claims. PEDANTIC serves as a valuable resource for patent AI researchers, enabling them to develop cutting-edge examination models. The dataset and its associated code will be publicly released to facilitate further research.
提供机构:
Bosch Center for AI, University of Augsburg, ScaDS.AI & TU Dresden
创建时间:
2025-05-27
原始信息汇总

PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims

数据集基本信息

  • 标题: PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims
  • arXiv ID: 2505.21342v1
  • 提交日期: 2025年5月27日
  • 最新版本日期: 2025年5月28日
  • 学科分类: Computer Science > Computation and Language (cs.CL)
  • DOI: 10.48550/arXiv.2505.21342

作者信息

  • 作者: Valentin Knappich, Annemarie Friedrich, Anna Hätty, Simon Razniewski

数据集描述

  • 内容: PEDANTIC(Patent Definiteness Examination Corpus)是一个包含14k美国专利权利要求的数据集,专注于自然语言处理(NLP)相关的专利申请,标注了不确定性的原因。
  • 构建方法: 使用全自动流程从USPTO检索办公室行动文件,并利用大型语言模型(LLMs)提取不确定性原因。通过人工验证研究确认了标注的高质量。
  • 应用: 用于开发专利确定性检查的自动方法,提高专利起草和审查的效率。

评估方法

  • 评估方式: 实现了LLM-as-Judge评估,比较每个模型引用的原因与审查员引用的原因的自由形式推理。
  • 实验结果: 基于Qwen 2.5 32B和72B的LLM代理在确定性预测上难以超越逻辑回归基线,尽管它们经常正确识别潜在原因。

发布信息

版本历史

  • v1: 2025年5月27日提交,732 KB
  • v2: 2025年5月28日提交,718 KB
搜集汇总
数据集介绍
main_image_url
构建方式
PEDANTIC数据集的构建采用了全自动化的流程,从美国专利商标局(USPTO)检索专利申请文件,并利用大型语言模型(LLM)从专利审查意见中提取专利权利要求的不明确性原因。首先,研究团队通过USPTO开放数据门户API获取2014年后的专利申请文件,并筛选出涉及自然语言处理(NLP)领域的专利。随后,使用Gemma 3 27B模型解析审查意见,提取不明确性的具体原因、类别以及相关权利要求片段。为确保数据质量,研究团队还进行了人工验证,确认了自动标注的准确性。
特点
PEDANTIC数据集包含了14,536项专利权利要求,其中一半被标记为不明确,另一半为明确。数据集不仅提供了二元分类标签,还包含了详细的不明确性原因,包括‘Antecedent Basis’、‘Undefined Term’、‘Relative Term’等七种常见类别。此外,每个不明确性原因还附有自由形式的解释和相关的权利要求片段。数据集的平衡性和多样性使其成为研究专利不明确性自动审查的理想资源。
使用方法
PEDANTIC数据集可用于训练和评估专利不明确性自动审查模型。研究人员可以利用该数据集进行二元分类任务(明确/不明确)或多标签分类任务(识别具体的不明确性类别)。此外,数据集中的自由形式解释可用于开发解释性AI模型,帮助专利审查员和申请人理解不明确性的具体原因。数据集还支持LLM-as-Judge评估方法,通过比较模型生成的不明确性原因与审查员标注的原因,进一步验证模型的性能。
背景与挑战
背景概述
PEDANTIC(Patent Definiteness Examination Corpus)是由Valentin Knappich、Annemarie Friedrich、Anna Hätty和Simon Razniewski等研究人员于2025年提出的一个专利明确性审查数据集。该数据集专注于自然语言处理(NLP)领域的美国专利申请,包含14,000条专利权利要求,每条权利要求均标注了因不明确性而被拒绝的具体原因。PEDANTIC的创建旨在填补专利AI研究中自动明确性审查数据集的空白,通过利用大型语言模型(LLM)自动解析美国专利商标局(USPTO)的审查文件,提取不明确性原因,并经过人工验证确保标注质量。这一数据集的发布为专利审查的自动化和效率提升提供了重要资源,推动了专利AI领域的研究进展。
当前挑战
PEDANTIC数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:专利权利要求的不明确性审查涉及复杂的法律语言和技术细节,要求模型能够准确识别诸如“缺乏先行基础”、“未定义术语”等多种不明确性原因。现有模型(如基于Qwen 2.5的LLM)在二元分类任务上表现不佳,难以超越逻辑回归基线,尽管它们能部分识别正确的不明确性原因。2) 构建过程的挑战:数据集的构建依赖于自动化的标注流程,尽管LLM能够提取高质量的标注文本,但在不明确性类别的标注上存在噪声,部分类别的标注准确性较低。此外,平衡明确和不明确权利要求的比例,以及避免时间偏差(如排除2014年以前的申请)也是构建过程中的难点。
常用场景
经典使用场景
在专利审查领域,PEDANTIC数据集为自动检测专利权利要求中的模糊性提供了标准化基准。该数据集通过标注美国专利商标局(USPTO)审查意见中的模糊性原因,支持研究者开发算法以识别诸如‘缺乏先行基础’或‘术语未定义’等典型问题。其标注流程结合了大型语言模型自动解析与人工验证,确保了数据质量与可靠性,尤其适用于训练和评估专利法律文本的语义理解模型。
解决学术问题
PEDANTIC解决了专利AI研究中缺乏细粒度模糊性标注数据的关键问题。传统研究多聚焦新颖性或非显而易见性,而该数据集首次系统化标注了14,000条权利要求中的模糊性类型(如相对术语、功能限定等)及其具体原因,支持模型从二元分类转向可解释的缺陷定位。其多标签分类框架和LLM-as-Judge评估方法,为衡量模型是否‘基于正确理由做出判断’提供了新范式,推动了可解释AI在专利法律文本中的应用。
衍生相关工作
PEDANTIC催生了多项专利AI领域的延伸研究,如Knappich等人提出的专利草案生成系统Pap2Pat利用其模糊性标签优化输出合规性。Ashtor基于类似数据构建的清晰度预测模型被扩展用于政策效果评估,而LLM-as-Judge评估框架则启发了后续工作如PatentEdits对专利修改建议的语义匹配研究。这些衍生成果共同推动了从‘模糊性检测’到‘自动修正’的技术链条发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作