swedish-patent-cpc-subclass

Hugging Face2025-08-24 更新2025-08-25 收录

下载链接：

https://huggingface.co/datasets/atheer2104/swedish-patent-cpc-subclass

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含历史瑞典专利文档的多标签分类数据集，这些文档根据合作专利分类（CPC）系统进行了分类。数据集由专利声明文本和对应的CPC子类分类代码组成，文本是从经过光学字符识别（OCR）处理的原始纸质文档中提取的。数据集旨在使历史专利更加易于访问，以便现代专利检索和检索系统能够有效地索引和检索旧瑞典专利。

创建时间：

2025-08-23

原始信息汇总

数据集概述

基本描述

数据集名称：Historical Swedish Patent CPC Subclass Classification
任务类型：多标签文本分类
语言：瑞典语
许可证：MIT
标签：专利、CPC、分类、法律、多标签

数据集内容

数据来源：1885-1972年瑞典历史专利文档
文本特征：通过光学字符识别（OCR）从原始纸质文档中提取的专利权利要求文本
分类体系：合作专利分类（CPC）子类级别
数据规模：35,831个文档
存储大小：115,631,167字节
下载大小：56,122,278字节

数据特征

字段说明

text：专利权利要求文本（瑞典语）
label：CPC子类分类代码列表（多标签格式）
dokID：唯一文档标识符
dokNr：专利文档编号
dokKod：文档代码分类
full_cpc_codes：分配给文档的所有CPC代码的完整列表

标签分布

唯一标签数量：497个CPC子类标签
单标签文档：23,416个（65.3%）
多标签文档：12,415个（34.7%）
平均每个文档标签数：1.49
每个文档最大标签数：12
每个标签平均文档数：107.82

标签分布细分

1个标签：23,424个文档
2个标签：8,689个文档
3个标签：2,650个文档
4+个标签：1,268个文档（呈指数递减）

数据质量

原始文档：269,052个专利文档
使用文档：35,831个（经过质量和标签要求筛选）
标签质量：所有CPC标签均由PRV（瑞典专利注册局）的专利工程师手动分配和验证
文本质量：由于历史文档的OCR处理，文本质量存在差异

数据处理

文本提取

使用spaCy的"sv_core_news_sm"流水线进行瑞典语文本处理
通过起始标记（"patentanspråk"或"patentkrav"）和结束标记（"härtill ritning"或"kongl boktryckeriet"）识别权利要求

标签预处理

移除了与索引代码和Y部分相关的CPC标签
过滤了关联文档少于10个的标签
仅包含CPC子类级别标签

使用建议

评估指标

Precision@k（P@k）
Recall@k（R@k）
F1@k
nDCG@k
Micro-F1
Macro-F1

数据集划分

建议使用分层抽样保持训练/验证/测试集的标签分布相似性
推荐划分：训练集90%，测试集10%
使用嵌套验证（训练数据的90/10划分）进行超参数调优

挑战与限制

主要挑战

类别不平衡：标签分布高度倾斜
多标签复杂性：34.7%的文档有多个标签
历史文本：OCR伪影和历史瑞典语变体可能影响文本质量
领域特异性：技术专利语言需要领域知识

限制

文本质量因历史文档的OCR处理而异
仅限于1885-1972年的瑞典专利
仅使用同时具有原始DPK和手动分配CPC标签的文档
每个标签最少10个文档的阈值可能排除罕见但重要的专利类别
OCR错误可能影响模型训练和评估

引用信息

bibtex @mastersthesis{Salim2025PatentClassification, author = {Salim, Atheer}, institution = {KTH, School of Electrical Engineering and Computer Science (EECS)}, pages = {70}, school = {KTH, School of Electrical Engineering and Computer Science (EECS)}, title = {Machine Learning for Classifying Historical Swedish Patents: A Comparison of Textual and Combined Data Approaches}, series = {TRITA-EECS-EX}, number = {2025:571}, keywords = {Multi-label Text Classification, Machine Learning, Patent Classification, Deep Learning, Natural Language Processing}, abstract = {Patents are essential for protecting intellectual property and advancing innovation, but the accessibility of historical patents is often limited by outdated classification systems. This thesis investigates whether incorporating legacy classification data alongside patent claims improves the performance of machine learning models in classifying historical Swedish patents into the modern CPC system.}, year = {2025}, url = "https://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-368254" }

搜集汇总

数据集介绍

构建方式

在专利文献分类领域，该数据集基于1885至1972年间瑞典历史专利文档构建，通过光学字符识别技术从原始纸质文档中提取专利权利要求文本。所有合作专利分类标签均由瑞典专利注册局的专利工程师手动标注，确保了标签的高可靠性。数据预处理阶段采用spaCy自然语言处理工具自动识别和提取专利权利要求文本，并过滤了关联文档数少于10的标签以保障数据质量。

使用方法

该数据集适用于多标签文本分类任务，用户可通过Hugging Face数据集库直接加载使用。模型评估建议采用分层抽样划分训练集与测试集，以保持标签分布的均衡性。针对多标签分类的特殊性，推荐使用Precision@k、Recall@k及nDCG@k等多维度评估指标，同时考虑微观F1和宏观F1分数以全面衡量模型性能。

背景与挑战

背景概述

专利分类体系作为知识产权保护的重要基础设施，其演进过程反映了技术领域的动态发展。瑞典专利与注册局（PRV）于2025年创建的Swedish Patent CPC Subclass数据集，由Atheer Salim主导开发，旨在解决1885-1972年间瑞典历史专利文献的现代化检索难题。该数据集将传统德国专利分类（DPK）体系转换为国际通用的合作专利分类（CPC）体系，通过专业专利工程师的人工标注，实现了35,831份历史文档的精准多标签分类，显著提升了专利检索系统的跨时代兼容性，对知识产权管理和技术演进研究具有重要价值。

当前挑战

该数据集致力于解决历史专利文献的多标签自动分类问题，面临的核心挑战包括专利文本的技术性语言理解、多标签间的复杂关联性建模，以及长尾分布下的罕见类别识别。在构建过程中，团队需要克服历史文档OCR识别产生的文本噪声问题，处理从DPK到CPC体系转换时的标注一致性难题，并应对原始数据中34.7%的多标签样本带来的标注复杂度。此外，数据质量控制需平衡标注准确性与覆盖范围，确保497个CPC子类别的分类体系既完整又具备机器学习可行性。

常用场景

经典使用场景

在专利信息检索领域，该数据集为多标签文本分类任务提供了珍贵的研究素材。其核心应用场景集中于训练深度学习模型对历史专利文献进行自动化CPC子类标注，模型需要同时处理OCR提取的瑞典语文本特征和专利特有的技术术语分布，典型任务包括基于Transformer架构的序列标注和层次化分类。

解决学术问题

该数据集有效解决了历史专利文献与现代分类体系对接的学术难题，为研究长尾分布下的多标签分类提供了实证基础。其意义在于建立了1885-1972年间瑞典专利的数字化桥梁，使得基于深度学习的自动分类技术能够替代传统人工标注，显著提升了专利检索系统的跨时代兼容性和学术研究效率。

实际应用

在实际应用中，该数据集支撑了专利局的智能检索系统开发，通过对历史专利的精准分类，大幅提升了在先技术检索的查全率与查准率。企业知识产权部门可利用该系统快速定位相关技术领域的专利脉络，而研究机构则能借此分析技术演进轨迹，为创新策略制定提供数据支撑。

数据集最近研究