hupd-jan2016

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/late-interacters/hupd-jan2016

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是HUPD（Harvard USPTO Patent Dataset）的一个本地样本，包含2016年1月的专利数据，并添加了CPC和IPC分类法的列。每个分类符号（如A01B 1/00）代表一个特定的分类层级，从“部分”（section）到“子组”（subgroup）。数据集还包括专利的文本信息（如标题、摘要、权利要求等）以及从紧凑字符串代码中派生的分类层级列（如cpc-section、cpc-class等）。此外，数据集还包含了嵌入向量字段（如embeddings-abstract-jina-v4）。

创建时间：

2026-01-19

原始信息汇总

HUPD Jan 2016 (local sample) with CPC/IPC taxonomy columns 数据集概述

数据集基本信息

数据集名称: HUPD Jan 2016 (local sample) with CPC/IPC taxonomy columns
许可证: MIT
数据集地址: https://huggingface.co/datasets/late-interacters/hupd-jan2016

数据内容与结构

数据分割: 仅包含验证集（validation）。
样本数量: 9094 个样本。
数据规模: 下载大小约为 1.44 GB，数据集大小约为 2.28 GB。

数据特征（字段说明）

数据集包含以下字段：

专利基本信息

patent_number: 专利号。
decision: 专利决定。
title: 专利标题。
abstract: 专利摘要。
claims: 专利权利要求。
background: 专利背景。
summary: 专利总结。
description: 专利描述。

专利分类信息

cpc_label: CPC分类标签。
ipc_label: IPC分类标签。

时间信息

filing_date: 申请日期。
patent_issue_date: 专利授权日期。
date_published: 发布日期。

审查信息

examiner_id: 审查员ID。

扩展的CPC分类层级字段

cpc: CPC完整分类代码。
cpc-section: CPC部。
cpc-class: CPC大类。
cpc-subclass: CPC小类。
cpc-group: CPC组。
cpc-subgroup: CPC分组。

扩展的IPC分类层级字段

ipc: IPC完整分类代码。
ipc-section: IPC部。
ipc-class: IPC大类。
ipc-subclass: IPC小类。
ipc-group: IPC组。
ipc-subgroup: IPC分组。

嵌入向量特征

embeddings-abstract-jina-v4: 基于Jina v4模型的摘要嵌入向量。
embeddings-abstract-qwen3-4b: 基于Qwen3-4B模型的摘要嵌入向量。
embeddings-summary-qwen3-4b: 基于Qwen3-4B模型的总结嵌入向量。

数据集特点说明

本数据集是HUPD（Harvard USPTO Patent Dataset）2016年1月数据的本地样本。
在原始HUPD数据基础上，新增了CPC和IPC分类体系的层级解析字段。原始HUPD存储紧凑字符串（如G06F30416），本数据集将其解析为标准层级格式（如A01B 1/00），并将组和分组拆分为独立的字段。
分类符号遵循标准层级结构：部（Section，字母A-H）、大类（Class，字母加两位数字）、小类（Subclass，大类后加一个字母）、组（Group，1-3位数字）和分组（Subgroup，至少两位数字）。

搜集汇总

数据集介绍

构建方式

在专利信息处理领域，hupd-jan2016数据集基于美国专利商标局（USPTO）的专利数据构建而成。该数据集从原始HUPD数据中提取了2016年1月的专利样本，通过解析专利文档中的分类代码，将紧凑字符串格式的CPC和IPC代码转换为具有语义层次结构的标准化表示。具体而言，构建过程涉及将如“G06F30416”这类紧凑代码拆分为节、类、子类、组和子组等多个层级字段，从而形成结构化的分类信息。这一转换过程确保了分类体系的完整性和可解释性，为后续的专利分析提供了坚实的基础。

使用方法

使用hupd-jan2016数据集时，研究人员可借助其结构化字段进行多层次的专利分析。例如，通过CPC或IPC分类层级，可以探索技术领域的分布与演进；利用文本字段如摘要和权利要求，能够训练自然语言处理模型进行专利分类或相似性检索；预计算的嵌入向量则便于直接应用于聚类或可视化任务。数据集以验证集形式提供，可直接加载用于模型评估或基准测试。在实际应用中，建议结合专利日期和审查员信息进行时序或网络分析，以揭示专利审查过程中的潜在模式。

背景与挑战

背景概述

在专利信息学与自然语言处理交叉领域，专利文本的自动化分析与分类一直是核心研究议题。HUPD-Jan2016数据集由哈佛大学专利数据集项目于2016年创建，旨在提供大规模、结构化的美国专利文献资源，服务于专利审查、技术趋势分析及知识产权管理。该数据集整合了专利的标题、摘要、权利要求书及详细描述等多维度文本字段，并引入了国际专利分类与协作专利分类体系的层级化编码，为研究者探索专利语义理解、分类模型优化及创新脉络挖掘奠定了数据基础。

当前挑战

该数据集致力于解决专利文本自动分类与语义检索的领域挑战，其核心在于应对专利语言的高度专业性、分类体系的复杂层级结构以及多标签分类中的类别不平衡问题。在构建过程中，挑战主要源于原始专利数据中分类代码的紧凑字符串格式转换，需通过规则解析将如'G06F30416'的编码准确拆分为层级化字段，同时确保分类体系的语义一致性与数据完整性，这对数据清洗与标准化流程提出了较高要求。

常用场景

经典使用场景

在专利信息处理领域，hupd-jan2016数据集常被用于专利文本分类与检索任务。该数据集整合了美国专利商标局的专利文档，涵盖标题、摘要、权利要求等结构化文本字段，并附有详细的CPC和IPC分类标签。研究人员利用这些丰富的语义信息和层次化分类体系，构建机器学习模型，以自动化地识别专利的技术领域或预测其审查结果，从而提升专利分析效率。

解决学术问题

该数据集有效解决了专利文本分析中的关键学术问题，例如专利自动分类、技术趋势挖掘和专利价值评估。通过提供标准化的分类标签和文本嵌入特征，它支持研究者探索专利文档的语义表示，并开发算法以理解复杂的技术描述。这不仅推动了自然语言处理在专业领域的应用，还为知识产权管理提供了数据驱动的决策依据，促进了跨学科研究的融合。

实际应用

在实际应用中，hupd-jan2016数据集被广泛用于知识产权管理、企业竞争情报分析和专利审查辅助系统。企业可以利用该数据集训练模型，监控技术发展动态，识别潜在创新机会或评估专利风险。同时，专利审查机构可借助其自动化工具加速审查流程，提高专利授权的准确性和一致性，从而优化全球知识产权生态系统的运作效率。

数据集最近研究