swedish-patent-cpc-subclass
收藏数据集概述
基本描述
- 数据集名称:Historical Swedish Patent CPC Subclass Classification
- 任务类型:多标签文本分类
- 语言:瑞典语
- 许可证:MIT
- 标签:专利、CPC、分类、法律、多标签
数据集内容
- 数据来源:1885-1972年瑞典历史专利文档
- 文本特征:通过光学字符识别(OCR)从原始纸质文档中提取的专利权利要求文本
- 分类体系:合作专利分类(CPC)子类级别
- 数据规模:35,831个文档
- 存储大小:115,631,167字节
- 下载大小:56,122,278字节
数据特征
字段说明
text:专利权利要求文本(瑞典语)label:CPC子类分类代码列表(多标签格式)dokID:唯一文档标识符dokNr:专利文档编号dokKod:文档代码分类full_cpc_codes:分配给文档的所有CPC代码的完整列表
标签分布
- 唯一标签数量:497个CPC子类标签
- 单标签文档:23,416个(65.3%)
- 多标签文档:12,415个(34.7%)
- 平均每个文档标签数:1.49
- 每个文档最大标签数:12
- 每个标签平均文档数:107.82
标签分布细分
- 1个标签:23,424个文档
- 2个标签:8,689个文档
- 3个标签:2,650个文档
- 4+个标签:1,268个文档(呈指数递减)
数据质量
- 原始文档:269,052个专利文档
- 使用文档:35,831个(经过质量和标签要求筛选)
- 标签质量:所有CPC标签均由PRV(瑞典专利注册局)的专利工程师手动分配和验证
- 文本质量:由于历史文档的OCR处理,文本质量存在差异
数据处理
文本提取
- 使用spaCy的"sv_core_news_sm"流水线进行瑞典语文本处理
- 通过起始标记("patentanspråk"或"patentkrav")和结束标记("härtill ritning"或"kongl boktryckeriet")识别权利要求
标签预处理
- 移除了与索引代码和Y部分相关的CPC标签
- 过滤了关联文档少于10个的标签
- 仅包含CPC子类级别标签
使用建议
评估指标
- Precision@k(P@k)
- Recall@k(R@k)
- F1@k
- nDCG@k
- Micro-F1
- Macro-F1
数据集划分
- 建议使用分层抽样保持训练/验证/测试集的标签分布相似性
- 推荐划分:训练集90%,测试集10%
- 使用嵌套验证(训练数据的90/10划分)进行超参数调优
挑战与限制
主要挑战
- 类别不平衡:标签分布高度倾斜
- 多标签复杂性:34.7%的文档有多个标签
- 历史文本:OCR伪影和历史瑞典语变体可能影响文本质量
- 领域特异性:技术专利语言需要领域知识
限制
- 文本质量因历史文档的OCR处理而异
- 仅限于1885-1972年的瑞典专利
- 仅使用同时具有原始DPK和手动分配CPC标签的文档
- 每个标签最少10个文档的阈值可能排除罕见但重要的专利类别
- OCR错误可能影响模型训练和评估
相关研究
该数据集是为研究结合传统分类信息(DPK)是否能提高CPC分类性能而创建的。研究表明,将文本内容与传统分类数据相结合可显著提高多标签专利分类的准确性。
引用信息
bibtex @mastersthesis{Salim2025PatentClassification, author = {Salim, Atheer}, institution = {KTH, School of Electrical Engineering and Computer Science (EECS)}, pages = {70}, school = {KTH, School of Electrical Engineering and Computer Science (EECS)}, title = {Machine Learning for Classifying Historical Swedish Patents: A Comparison of Textual and Combined Data Approaches}, series = {TRITA-EECS-EX}, number = {2025:571}, keywords = {Multi-label Text Classification, Machine Learning, Patent Classification, Deep Learning, Natural Language Processing}, abstract = {Patents are essential for protecting intellectual property and advancing innovation, but the accessibility of historical patents is often limited by outdated classification systems. This thesis investigates whether incorporating legacy classification data alongside patent claims improves the performance of machine learning models in classifying historical Swedish patents into the modern CPC system.}, year = {2025}, url = "https://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-368254" }




