哈佛USPTO专利数据集 (HUPD)

Name: 哈佛USPTO专利数据集 (HUPD)
Creator: 哈佛大学
Published: 2022-07-09 01:57:15
License: 暂无描述

arXiv2022-07-09 更新2024-06-21 收录

下载链接：

https://patentdataset.org

下载链接

链接失效反馈

官方服务：

资源简介：

哈佛USPTO专利数据集(HUPD)是由哈佛大学创建的一个大规模、结构化、多用途的英语专利申请语料库，涵盖了2004至2018年间提交给美国专利商标局的超过450万份实用新型专利申请。该数据集不仅规模是现有类似数据集的两到三倍，而且包含发明人提交的专利申请版本，而非最终授权的专利版本，首次允许使用自然语言处理方法研究申请时的专利性。此外，HUPD的独特之处在于包含丰富的结构化元数据，伴随专利申请的文本字段，使研究者能够利用结构化协变量的变化执行新的自然语言处理任务。该数据集旨在推动将语言和分类模型扩展到多样化和动态的真实世界数据分布的研究。

The Harvard USPTO Patent Dataset (HUPD) is a large-scale, structured, multi-purpose English corpus of patent applications created by Harvard University. It covers over 4.5 million utility patent applications submitted to the United States Patent and Trademark Office (USPTO) between 2004 and 2018. Boasting a scale two to three times that of existing analogous datasets, HUPD includes the as-filed versions of patent applications submitted by inventors, rather than the final granted patent versions. This enables, for the first time, the application of natural language processing (NLP) methods to study patentability at the time of application filing. Additionally, HUPD uniquely features rich structured metadata paired with the textual fields of patent applications, allowing researchers to conduct novel natural language processing tasks by leveraging variations in structured covariates. This dataset is designed to advance research on extending language and classification models to diverse and dynamic real-world data distributions.

提供机构：

哈佛大学

创建时间：

2022-07-09

搜集汇总

数据集介绍

构建方式

哈佛USPTO专利数据集（HUPD）通过整合多个数据源构建而成，包括从美国专利商标局（USPTO）的批量数据存储系统（BDSS）获取的专利申请文本，以及从USPTO专利审查研究数据集中获取的申请元数据。数据集通过解析不同格式的XML文件，将其标准化为统一的JSON格式，并合并了专利文本与元数据，确保了数据集的完整性和一致性。

特点

HUPD数据集的显著特点在于其规模庞大、结构良好且用途广泛。它包含了2004年至2018年间提交给USPTO的超过450万份英语专利申请，涵盖了34个数据字段，包括申请日期、分类代码、审查员信息等。与以往的专利数据集不同，HUPD不仅包含已授予的专利，还包含了申请阶段的专利，这使得研究人员能够首次通过自然语言处理方法研究专利申请的可专利性。

使用方法

HUPD数据集可用于多种自然语言处理任务，如专利决策的二元分类、专利主题的多标签分类、语言建模以及摘要生成。研究人员可以根据任务需求选择合适的文本字段和元数据进行实验。例如，在专利决策分类任务中，可以使用专利的摘要或权利要求书作为输入，预测专利是否会被接受。此外，数据集的结构化特性还支持对专利语言和分类随时间演变的分析。

背景与挑战

背景概述

哈佛USPTO专利数据集（HUPD）是由哈佛大学研究人员于2022年推出的一个大规模、结构化且多用途的专利申请语料库。该数据集涵盖了2004年至2018年间提交给美国专利商标局（USPTO）的超过450万份英语专利申请，是现有专利数据集中规模最大的之一。HUPD的核心研究问题是如何利用自然语言处理（NLP）技术对专利申请进行新颖性评估、贡献总结以及语义嵌入分析。该数据集不仅包含专利文本，还提供了丰富的结构化元数据，如申请日期、分类代码、审查员信息等，为NLP研究提供了新的实验平台。HUPD的推出旨在推动专利分析和NLP领域的研究，特别是在专利分类、语言建模和摘要生成等任务上。

当前挑战

HUPD在构建过程中面临了多个挑战。首先，专利数据的半结构化特性使得数据清洗和标准化变得复杂，尤其是不同版本的XML文件需要进行统一处理。其次，专利文本的多样性和专业术语的复杂性对现有的NLP模型提出了挑战，尤其是在处理长文本和特定领域词汇时。此外，专利申请的接受与否涉及复杂的审查过程，如何准确预测专利的接受概率是一个具有挑战性的任务。最后，专利数据的动态性和时间变化特性要求模型能够适应概念漂移，这对模型的鲁棒性和泛化能力提出了更高的要求。

常用场景

经典使用场景

哈佛USPTO专利数据集（HUPD）最经典的使用场景之一是用于自然语言处理（NLP）任务，如专利文本的分类、摘要生成和语言建模。通过利用数据集中丰富的结构化元数据和专利文本，研究人员可以进行多任务学习，例如专利主题的多标签分类、专利接受/拒绝的二元分类以及专利摘要的生成。这些任务不仅有助于理解专利文本的语言特征，还能为专利审查和创新分析提供有价值的工具。

解决学术问题

HUPD解决了传统专利数据集在规模、结构和多样性方面的局限性。传统数据集通常仅包含已授予专利的文本，而HUPD则包含了从2004年到2018年提交的所有专利申请，包括被拒绝和待定的申请。这使得研究人员能够首次通过NLP方法研究专利申请的提交阶段，并引入新的任务，如专利决策的二元分类。此外，HUPD的结构化元数据为研究人员提供了更多的分析维度，如专利语言随时间的演变和概念转移的研究，从而推动了NLP和专利分析领域的学术研究。

衍生相关工作

HUPD的发布催生了许多相关研究工作，特别是在专利文本的分类、摘要生成和语言建模领域。例如，研究人员利用HUPD开发了基于BERT和RoBERTa的专利分类模型，显著提高了多标签分类任务的性能。此外，HUPD还启发了对专利文本的语言建模研究，特别是在长文本处理和领域特定语言模型方面。HUPD的结构化元数据也促进了专利审查过程中概念转移的研究，为NLP模型在动态数据分布中的应用提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集