hupd-jan2016
收藏Hugging Face2026-01-20 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/late-interacters/hupd-jan2016
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是HUPD(Harvard USPTO Patent Dataset)的一个本地样本,包含2016年1月的专利数据,并添加了CPC和IPC分类法的列。每个分类符号(如A01B 1/00)代表一个特定的分类层级,从“部分”(section)到“子组”(subgroup)。数据集还包括专利的文本信息(如标题、摘要、权利要求等)以及从紧凑字符串代码中派生的分类层级列(如cpc-section、cpc-class等)。此外,数据集还包含了嵌入向量字段(如embeddings-abstract-jina-v4)。
创建时间:
2026-01-19
原始信息汇总
HUPD Jan 2016 (local sample) with CPC/IPC taxonomy columns 数据集概述
数据集基本信息
- 数据集名称: HUPD Jan 2016 (local sample) with CPC/IPC taxonomy columns
- 许可证: MIT
- 数据集地址: https://huggingface.co/datasets/late-interacters/hupd-jan2016
数据内容与结构
- 数据分割: 仅包含验证集(validation)。
- 样本数量: 9094 个样本。
- 数据规模: 下载大小约为 1.44 GB,数据集大小约为 2.28 GB。
数据特征(字段说明)
数据集包含以下字段:
专利基本信息
patent_number: 专利号。decision: 专利决定。title: 专利标题。abstract: 专利摘要。claims: 专利权利要求。background: 专利背景。summary: 专利总结。description: 专利描述。
专利分类信息
cpc_label: CPC分类标签。ipc_label: IPC分类标签。
时间信息
filing_date: 申请日期。patent_issue_date: 专利授权日期。date_published: 发布日期。
审查信息
examiner_id: 审查员ID。
扩展的CPC分类层级字段
cpc: CPC完整分类代码。cpc-section: CPC部。cpc-class: CPC大类。cpc-subclass: CPC小类。cpc-group: CPC组。cpc-subgroup: CPC分组。
扩展的IPC分类层级字段
ipc: IPC完整分类代码。ipc-section: IPC部。ipc-class: IPC大类。ipc-subclass: IPC小类。ipc-group: IPC组。ipc-subgroup: IPC分组。
嵌入向量特征
embeddings-abstract-jina-v4: 基于Jina v4模型的摘要嵌入向量。embeddings-abstract-qwen3-4b: 基于Qwen3-4B模型的摘要嵌入向量。embeddings-summary-qwen3-4b: 基于Qwen3-4B模型的总结嵌入向量。
数据集特点说明
- 本数据集是HUPD(Harvard USPTO Patent Dataset)2016年1月数据的本地样本。
- 在原始HUPD数据基础上,新增了CPC和IPC分类体系的层级解析字段。原始HUPD存储紧凑字符串(如
G06F30416),本数据集将其解析为标准层级格式(如A01B 1/00),并将组和分组拆分为独立的字段。 - 分类符号遵循标准层级结构:部(Section,字母A-H)、大类(Class,字母加两位数字)、小类(Subclass,大类后加一个字母)、组(Group,1-3位数字)和分组(Subgroup,至少两位数字)。
搜集汇总
数据集介绍

构建方式
在专利信息处理领域,hupd-jan2016数据集基于美国专利商标局(USPTO)的专利数据构建而成。该数据集从原始HUPD数据中提取了2016年1月的专利样本,通过解析专利文档中的分类代码,将紧凑字符串格式的CPC和IPC代码转换为具有语义层次结构的标准化表示。具体而言,构建过程涉及将如“G06F30416”这类紧凑代码拆分为节、类、子类、组和子组等多个层级字段,从而形成结构化的分类信息。这一转换过程确保了分类体系的完整性和可解释性,为后续的专利分析提供了坚实的基础。
使用方法
使用hupd-jan2016数据集时,研究人员可借助其结构化字段进行多层次的专利分析。例如,通过CPC或IPC分类层级,可以探索技术领域的分布与演进;利用文本字段如摘要和权利要求,能够训练自然语言处理模型进行专利分类或相似性检索;预计算的嵌入向量则便于直接应用于聚类或可视化任务。数据集以验证集形式提供,可直接加载用于模型评估或基准测试。在实际应用中,建议结合专利日期和审查员信息进行时序或网络分析,以揭示专利审查过程中的潜在模式。
背景与挑战
背景概述
在专利信息学与自然语言处理交叉领域,专利文本的自动化分析与分类一直是核心研究议题。HUPD-Jan2016数据集由哈佛大学专利数据集项目于2016年创建,旨在提供大规模、结构化的美国专利文献资源,服务于专利审查、技术趋势分析及知识产权管理。该数据集整合了专利的标题、摘要、权利要求书及详细描述等多维度文本字段,并引入了国际专利分类与协作专利分类体系的层级化编码,为研究者探索专利语义理解、分类模型优化及创新脉络挖掘奠定了数据基础。
当前挑战
该数据集致力于解决专利文本自动分类与语义检索的领域挑战,其核心在于应对专利语言的高度专业性、分类体系的复杂层级结构以及多标签分类中的类别不平衡问题。在构建过程中,挑战主要源于原始专利数据中分类代码的紧凑字符串格式转换,需通过规则解析将如'G06F30416'的编码准确拆分为层级化字段,同时确保分类体系的语义一致性与数据完整性,这对数据清洗与标准化流程提出了较高要求。
常用场景
经典使用场景
在专利信息处理领域,hupd-jan2016数据集常被用于专利文本分类与检索任务。该数据集整合了美国专利商标局的专利文档,涵盖标题、摘要、权利要求等结构化文本字段,并附有详细的CPC和IPC分类标签。研究人员利用这些丰富的语义信息和层次化分类体系,构建机器学习模型,以自动化地识别专利的技术领域或预测其审查结果,从而提升专利分析效率。
解决学术问题
该数据集有效解决了专利文本分析中的关键学术问题,例如专利自动分类、技术趋势挖掘和专利价值评估。通过提供标准化的分类标签和文本嵌入特征,它支持研究者探索专利文档的语义表示,并开发算法以理解复杂的技术描述。这不仅推动了自然语言处理在专业领域的应用,还为知识产权管理提供了数据驱动的决策依据,促进了跨学科研究的融合。
实际应用
在实际应用中,hupd-jan2016数据集被广泛用于知识产权管理、企业竞争情报分析和专利审查辅助系统。企业可以利用该数据集训练模型,监控技术发展动态,识别潜在创新机会或评估专利风险。同时,专利审查机构可借助其自动化工具加速审查流程,提高专利授权的准确性和一致性,从而优化全球知识产权生态系统的运作效率。
数据集最近研究
最新研究方向
在专利文本分析领域,hupd-jan2016数据集凭借其丰富的结构化分类信息与预训练嵌入特征,正推动着前沿研究向多模态智能审查与知识图谱构建方向深化。当前研究热点聚焦于利用CPC/IPC层级编码与抽象、摘要的向量表示,开发能够自动识别技术领域交叉与创新趋势的深度学习模型。这些进展不仅响应了全球专利审查效率提升的迫切需求,也为人工智能在知识产权管理中的决策支持系统提供了关键数据基础,显著影响了技术预测与创新政策制定的科学化进程。
以上内容由遇见数据集搜集并总结生成



