shangdatalab-ucsd/PatentAP

Name: shangdatalab-ucsd/PatentAP
Creator: shangdatalab-ucsd
Published: 2024-04-19 20:10:55
License: 暂无描述

Hugging Face2024-04-19 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/shangdatalab-ucsd/PatentAP

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于专利批准预测任务，相关论文为《Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph》。数据集包含多个特征字段，如专利声明、申请号、申请类型分类、相关文档数据、专利分类等。数据集分为训练集、验证集和测试集，分别包含1,485,693、278,215和185,477个样本。

This dataset is designed for the patent approval prediction task, and its associated academic paper is titled *Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph*. The dataset comprises multiple feature fields including patent claims, application numbers, application type classifications, related document data, patent classifications, and so on. It is split into training, validation, and test sets, which contain 1,485,693, 278,215, and 185,477 samples respectively.

提供机构：

shangdatalab-ucsd

原始信息汇总

数据集概述

数据集名称

名称: PatentAP

数据集描述

描述: 用于专利批准预测任务的数据集，该数据集在论文"Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph"中提出。

数据集特征

特征列表:
- Unnamed: 0 (int64)
- claim_input (string)
- claim_idx (int64)
- applicationNumber (int64)
- applicationTypeCategory (string)
- relatedDocumentData (float64)
- patentClassification (string)
- applicantCitedExaminerReferenceIndicatorCount (float64)
- filingDate (string)
- publicationDate (string)
- claimNumberArrayDocument (float64)
- abstract (string)
- percentile (float64)
- claim_label_101 (int64)
- claim_label_102 (int64)
- claim_label_103 (int64)
- claim_label_112 (int64)
- relatedApplicationNumber (string)
- max_score_x (float64)
- mean_score (float64)
- max_citations (float64)
- max_other_citations (float64)
- max_article_citations (float64)
- max_score_y (float64)
- component (int64)
- is_closed (int64)
- is_open (int64)
- is_half (int64)
- similarity_product (float64)
- transitional_phrase (string)
- app_claim_id (string)
- bert_scores_102 (float64)
- claim_label_combined (int64)
- bert_scores_101 (float64)
- combined_pred_scores (float64)
- claim_label_101_adjusted (int64)
- bert_score_102_app_feats_no_hinge (float64)
- bert_score_101_app_feats (float64)
- bert_score_102_app_feats_w_hinge (float64)
- bert_score_102_no_app_feats (float64)
- dataset (string)
- lexical_diversity (float64)
- patent_class (float64)
- foreignPriority (bool)

数据集分割

分割详情:
- 训练集: 1485693个样本，占用2152439051字节
- 验证集: 278215个样本，占用402312853字节
- 测试集: 185477个样本，占用267789008字节

数据集大小

下载大小: 501745093字节
数据集总大小: 2822540912字节

配置

默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在专利分析领域，高质量的数据集对于预测模型至关重要。PatentAP数据集的构建依托于专利文献的结构化信息，通过提取专利权利要求、申请号、分类号及引用指标等多维度特征，形成综合性的数据框架。其构建过程整合了专利文本与元数据，并运用自然语言处理技术对权利要求进行标注与编码，确保了数据的系统性与完整性。该数据集涵盖了训练、验证与测试三个标准划分，为专利审批预测任务提供了坚实的数据基础。

特点

专利审批预测领域的数据集需具备丰富的特征表示能力。PatentAP数据集的特点在于其多维度的特征设计，不仅包含传统的文本字段如权利要求和摘要，还融入了申请类型、引用计数、相似度评分及BERT模型输出等高级指标。这些特征能够捕捉专利的语义内容、结构依赖及技术新颖性，为模型提供了细粒度的分析视角。数据集的规模庞大，覆盖了数百万条专利记录，确保了统计上的代表性与可靠性。

使用方法

在专利审批预测的应用中，数据集的使用需遵循科学的数据处理流程。PatentAP数据集可直接用于训练机器学习或深度学习模型，支持分类与回归任务。用户可依据标准的数据划分，利用训练集进行模型训练，验证集进行超参数调优，测试集进行最终性能评估。数据集中的特征字段允许灵活的特征工程，例如结合权利要求文本与引用指标，以提升预测的准确性。此外，数据集兼容常见的机器学习框架，便于集成到现有的研究或应用管道中。

背景与挑战

背景概述

专利审批预测作为知识产权与自然语言处理交叉领域的前沿课题，旨在通过计算模型自动评估专利申请的授权可能性。由上海数据实验室与加州大学圣地亚哥分校联合构建的PatentAP数据集，于近年应运而生，其核心研究聚焦于超越传统文本缩放方法，通过构建领域特定的细粒度权利要求依赖图，深入解析专利文本的复杂结构与法律逻辑。该数据集的创建标志着专利分析从宏观统计向微观语义理解的范式转变，为智能专利审查、创新质量评估及技术趋势预测提供了关键的数据基础，有力推动了法律人工智能与创新管理研究的深度融合。

当前挑战

专利审批预测任务面临的核心挑战在于专利文本固有的高度专业化与法律严谨性，要求模型不仅能理解技术描述，还需精准把握权利要求间的逻辑依赖与法律界限。构建PatentAP数据集的过程同样充满挑战，包括从海量非结构化专利文献中精准提取并标注细粒度的权利要求及其关联关系，确保数据在法律意义上的准确性与一致性；同时，需克服专利数据中存在的类别不平衡、时间演变特性以及多源异构信息融合等难题，以构建可靠且具代表性的基准数据集。

常用场景

经典使用场景

在专利分析领域，PatentAP数据集为预测专利审批结果提供了结构化支持。该数据集整合了专利权利要求文本、分类信息、引用指标及审批标签，常用于训练机器学习模型，以自动化评估专利的授权可能性。通过分析权利要求之间的依赖关系及历史审批数据，研究者能够构建精细的预测框架，优化专利审查流程的效率与准确性。

衍生相关工作

基于PatentAP数据集，衍生出多项经典研究工作，例如专利权利要求依赖图构建与多模态预测模型。这些工作深入探索了文本特征与结构化数据的协同机制，推动了领域自适应预训练技术的发展。相关成果不仅丰富了知识产权计算分析的方法论，也为后续的自动化审批工具提供了理论支撑。

数据集最近研究