swedish-patent-cpc-group

Hugging Face2025-08-24 更新2025-08-25 收录

下载链接：

https://huggingface.co/datasets/atheer2104/swedish-patent-cpc-group

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含瑞典历史专利文档的多标签分类数据集，文档按照合作专利分类（CPC）系统在组级别进行分类。数据集由通过OCR技术数字化处理的原始瑞典专利文档的专利声明文本组成，每个文档可能包含多个CPC组标签。数据集旨在使历史专利更容易获取，并支持精确的专利搜索和检索系统。数据集分为训练集、测试集和验证集，具有类不平衡和数据稀疏性的挑战性特征。

创建时间：

2025-08-23

原始信息汇总

数据集概述

基本信息

数据集名称：Historical Swedish Patent CPC Group Classification
许可证：MIT
语言：瑞典语（sv）
任务类型：多标签文本分类
标签：专利、CPC、分类、法律、多标签

数据规模

总样本数：27,339个文档
训练集样本数：27,339个（单一拆分）
下载大小：42,432,639字节
数据集大小：87,590,812字节

数据特征

字段说明

text：专利权利要求文本（瑞典语），从OCR处理的历史文档中提取
label：CPC组分类代码列表（多标签格式）
dokID：唯一文档标识符
dokNr：专利文档编号
dokKod：文档代码分类
full_cpc_codes：分配给文档的所有CPC代码的完整列表

标签分布

唯一标签数量：1,781个CPC组标签
单标签文档：16,110个（58.9%）
多标签文档：11,229个（41.1%）
平均每个文档标签数：1.65
最大标签数：15
平均每个标签文档数：25.37

标签数量分布

1个标签：16,111个文档（58.9%）
2个标签：7,083个文档（25.9%）
3个标签：2,658个文档（9.7%）
4个标签：935个文档（3.4%）
5+个标签：552个文档（2.0%）

数据来源与处理

数据来源

历史瑞典专利文档（1885-1972年）
文本通过光学字符识别（OCR）从原始纸质文档生成
所有CPC标签由PRV（瑞典专利注册局）的专利工程师手动分配

预处理

使用spaCy的"sv_core_news_sm"管道自动提取专利权利要求
移除与索引代码和Y部分相关的CPC标签
过滤掉关联文档少于10个的标签
包含主要组和子组的CPC组级别标签

分类挑战

极端类别不平衡
数据稀疏性
细粒度分类需求
多标签复杂性
历史文本质量变化
大规模标签词汇表（1,781个可能标签）

使用方式

python from datasets import load_dataset dataset = load_dataset("atheer2104/swedish-patent-cpc-group")

局限性

严重的类别不平衡
OCR质量变化
历史范围限制（1885-1972年瑞典专利）
语言特异性（瑞典语）
过滤效应（每个标签至少10个文档的阈值）
细粒度分类复杂性

引用信息

bibtex @mastersthesis{Salim2025PatentClassification, author = {Salim, Atheer}, institution = {KTH, School of Electrical Engineering and Computer Science (EECS)}, pages = {70}, school = {KTH, School of Electrical Engineering and Computer Science (EECS)}, title = {Machine Learning for Classifying Historical Swedish Patents: A Comparison of Textual and Combined Data Approaches}, series = {TRITA-EECS-EX}, number = {2025:571}, keywords = {Multi-label Text Classification, Machine Learning, Patent Classification, Deep Learning, Natural Language Processing, Textklassificering med flera Klasser, Maskininlärning, Patentklassificering, Djupinlärning, Språkteknologi}, abstract = {Patents are essential for protecting intellectual property and advancing innovation, but the accessibility of historical patents is often limited by outdated classification systems. The thesis investigates whether incorporating DPK information alongside patent claims improves the performance of machine learning models in classifying historical Swedish patents into the CPC system. While group-level predictions were more challenging due to label imbalance and fewer samples per label, the research provides valuable insights into fine-grained patent classification challenges.}, year = {2025}, url = "https://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-368254" }

搜集汇总

数据集介绍

构建方式

在专利分类领域，历史文献的数字化重构面临独特挑战。该数据集通过对1885至1972年间瑞典纸质专利文献进行光学字符识别处理，采用spaCy的瑞典语处理管道自动提取专利权利要求文本，起始标记为"patentanspråk"或"patentkrav"，终止标记为"härtill ritning"或"kongl boktryckeriet"。所有CPC分类标签均由瑞典专利注册局的专利工程师人工标注，确保了标签的高可靠性，同时移除了索引代码和Y部相关标签，并过滤了文档数量少于10的稀有类别。

使用方法

该数据集适用于多标签文本分类任务，特别针对专利领域的细粒度分类研究。使用者可通过HuggingFace的datasets库直接加载数据集，获取包含专利权利要求文本和对应CPC组级标签的数据。由于数据存在严重的类别不平衡，建议采用分层采样确保训练集和测试集具有相似的标签分布，并重点关注宏平均指标以平衡稀有标签的性能评估。模型设计时应考虑类平衡技术、分层方法或少样本学习策略，以应对标签稀疏性和分类粒度精细化的挑战。

背景与挑战

背景概述

瑞典专利CPC组分类数据集由瑞典专利注册局与KTH皇家理工学院联合创建，旨在解决历史专利文献的现代化分类问题。该数据集收录了1885年至1972年间的瑞典专利文本，采用合作专利分类体系进行细粒度标注。其核心研究价值在于通过机器学习技术实现历史专利的精确检索与知识挖掘，为知识产权保护与技术创新研究提供重要数据支撑。该数据集的建立标志着专利文献数字化进程中的重要突破，对法律信息检索与自然语言处理领域产生深远影响。

当前挑战

该数据集面临多重技术挑战：在领域问题层面，需解决细粒度多标签分类中的极端类别不平衡问题，1781个标签中存在显著的长尾分布现象；构建过程中遭遇历史文档OCR识别质量不均的难题，原始纸质文档的数字化转换导致文本噪声较大。同时，专利文本的专业性要求模型具备深度领域知识理解能力，而多标签间的复杂共现模式进一步增加了分类难度，41.1%的多标签文档需要模型捕捉标签间的隐含关联。

常用场景

经典使用场景

在专利信息检索与分析领域，该数据集为多标签分类任务提供了珍贵的历史语料。研究者利用其包含的1885-1972年间瑞典专利文本与CPC小组级分类标签，训练深度学习模型实现专利文档的自动精细分类。每个文档可能对应多个CPC小组标签的特性，使得模型需要学习复杂的标签共现模式与文本语义关联，特别适合探索极端类别不平衡下的多标签分类算法性能。

解决学术问题

该数据集有效解决了历史专利文献数字化访问的学术难题，通过提供人工验证的CPC小组级分类标签，为机器学习模型在细粒度专利分类中的性能评估建立了基准。其极端类别不平衡和数据稀疏特性推动了少样本学习、层次化分类以及类别不平衡处理方法的创新研究，为处理长尾分布的多标签文本分类问题提供了重要实验平台。

实际应用

在实际应用中，该数据集支撑了专利检索系统的智能化升级，使历史瑞典专利能够被现代CPC系统精确索引。专利审查机构利用基于该数据训练的模型，快速定位相关在先技术，提高审查效率。企业研发部门则通过分类系统追踪技术发展脉络，识别潜在的技术空白领域，为创新方向规划提供数据支撑。

数据集最近研究