HUPD/hupd

Name: HUPD/hupd
Creator: HUPD
Published: 2022-10-24 15:47:30
License: 暂无描述

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HUPD/hupd

下载链接

链接失效反馈

官方服务：

资源简介：

哈佛USPTO专利数据集（HUPD）是一个大规模、结构良好且多用途的英文实用专利申请语料库，涵盖了2004年至2018年间向美国专利商标局（USPTO）提交的申请。数据集包含每个专利申请的详细信息，如申请号、标题、决定状态、分类代码、发明人信息、摘要、权利要求等，共34个数据字段。数据集的主要用途包括专利接受预测、自动主题分类、语言建模和摘要生成。数据集仅包含英文文本，领域为专利（知识产权）。

提供机构：

HUPD

原始信息汇总

数据集概述

数据集名称

名称：The Harvard USPTO Patent Dataset (HUPD)
别名：HUPD

数据集描述

概述：HUPD是一个大规模、结构良好的多用途英语专利申请语料库，涵盖了2004年1月至2018年12月期间向美国专利商标局（USPTO）提交的实用专利申请。
领域：专利（知识产权）

数据集内容

语言：仅包含英语文本
数据结构：每个专利申请由一个独立的JSON文件定义，文件名基于其申请号，包含34个数据字段，如申请和出版号、标题、决策状态、提交和出版日期、主要和次要分类代码、发明者、审查员、律师、摘要、声明、背景、总结和完整发明描述等。

数据集使用

任务类别：
- 填充掩码
- 摘要生成
- 文本分类
- 令牌分类
具体任务：
- 专利接受预测
- 自动主题（IPC/CPC）分类
- 语言建模
- 摘要生成

数据集创建

来源数据：数据来源于USPTO的Bulk Data Storage System和Patent Examination Research Dataset。
注释：数据集不包含任何人为或计算机生成的注释，除了由专利申请人或USPTO产生的信息。
数据偏移：数据集展示了随着时间概念的演变，特别是在专利接受标准上的变化。

数据集影响

社会影响：旨在对ML/NLP和Econ/IP社区产生积极影响。
潜在偏见：数据集存在性别、实体大小和地域分布的偏见，这些偏见在专利申请和接受率中有所体现。

许可证信息

许可证：CreativeCommons Attribution-NonCommercial-ShareAlike 4.0 International

引用信息

@article{suzgun2022hupd, title={The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications}, author={Suzgun, Mirac and Melas-Kyriazi, Luke and Sarkar, Suproteem K. and Kominers, Scott Duke and Shieber, Stuart M.}, year={2022}, publisher={arXiv preprint arXiv:2207.04043}, url={https://arxiv.org/abs/2207.04043},

搜集汇总

数据集介绍

构建方式

哈佛USPTO专利数据集（HUPD）的构建基于美国专利商标局（USPTO）在2004年至2018年间提交的英文实用专利申请。数据集整合了来自USPTO的多个数据源，包括从USPTO批量数据存储系统获取的完整专利申请文本，以及从USPTO专利审查研究数据集获取的文献编目元数据。每个专利申请均以独立的JSON文件形式存储，包含34个数据字段，涵盖了从申请号、标题到摘要、权利要求等详细信息。

使用方法

HUPD数据集可通过Hugging Face的`load_dataset`函数加载，用户可以选择加载样本数据集或完整数据集。样本数据集包含2016年1月提交的所有专利申请，适用于调试和探索。完整数据集则需要指定训练和验证集的起止日期，并设置`force_extract`参数以节省存储空间。此外，Google Colab提供了多个笔记本，帮助用户快速上手数据集的使用，包括加载数据集、使用预训练模型进行预测和摘要生成等任务。

背景与挑战

背景概述

哈佛大学USPTO专利数据集（HUPD）是由Mirac Suzgun、Luke Melas-Kyriazi、Suproteem K. Sarkar、Scott Duke Kominers和Stuart M. Shieber等研究人员于2022年创建的一个大规模、结构化的多用途专利语料库。该数据集涵盖了2004年1月至2018年12月期间提交至美国专利商标局（USPTO）的英文实用专利申请。HUPD的创建旨在为机器学习、自然语言处理以及经济学和知识产权领域的研究提供丰富的数据资源。通过整合USPTO的多种数据源，HUPD不仅包含了专利申请的全文，还提供了详细的元数据，如申请号、标题、决策状态、分类代码等。该数据集的核心研究问题包括专利接受预测、自动主题分类、语言建模和摘要生成等任务，为相关领域的研究提供了重要的数据支持。

当前挑战

HUPD数据集在构建和应用过程中面临多重挑战。首先，专利文本的复杂性和专业性使得自然语言处理模型在处理这些数据时需要更高的精确度和适应性。其次，数据集中的专利接受标准随时间变化，这要求模型能够有效处理概念漂移问题。此外，数据集的构建过程中，研究人员需要从USPTO的多个数据源中提取和整合信息，这一过程涉及大量的数据清洗和格式转换工作。最后，HUPD数据集在代表性方面存在局限性，主要包含英文专利，未能涵盖其他语言和文化背景下的创新，且专利申请的高成本可能导致某些群体在数据中的代表性不足。这些挑战不仅影响了数据集的广泛应用，也为未来的研究提出了新的方向。

常用场景

经典使用场景

在专利分析领域，HUPD数据集被广泛用于预测专利申请的接受概率。通过分析专利摘要、权利要求书或描述部分，研究人员能够构建模型来预测美国专利商标局（USPTO）是否会接受该申请。这一应用不仅帮助理解专利审查的标准，还为专利申请人提供了宝贵的参考信息。

解决学术问题

HUPD数据集解决了专利文本自动分类和语言建模中的关键问题。通过提供大规模的专利申请文本，该数据集支持了IPC/CPC代码的自动分类任务，并促进了掩码语言模型和自回归语言模型的研究。这些研究不仅提升了专利文本处理的效率，还为自然语言处理领域提供了新的研究方向。

实际应用

在实际应用中，HUPD数据集被用于优化专利申请流程。通过自动化生成专利摘要和分类，该数据集帮助专利律师和发明者更高效地准备和提交专利申请。此外，该数据集还被用于开发工具，帮助小型企业和独立发明者降低专利申请的成本，从而促进创新。

数据集最近研究