Patent Language Model Pretraining
收藏arXiv2025-09-18 更新2025-09-20 收录
下载链接:
https://clarivate.com/intellectual-property/patent-intelligence/derwent-world-patents-index/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Clarivate构建,包含约6400万份专利文档,平均长度约700词。数据集由原始已发布的专利申请和从德温特世界专利索引(DWPI)中提取的对应专有样本组成。数据集经过预处理,包括提取摘要和每项专利的第一个独立权利要求,并附录DWPI标题、摘要和权利要求。数据集的应用领域为专利领域,旨在解决专利分类、检索和段落高亮等任务。
This dataset was developed by Clarivate, encompassing approximately 64 million patent documents with an average length of about 700 words. It consists of originally published patent applications and corresponding proprietary samples extracted from the Derwent World Patents Index (DWPI). The dataset has been preprocessed, including extracting the abstract and the first independent claim of each patent, and is supplemented with the DWPI-derived title, abstract and claims. Targeting the patent domain, this dataset is designed to address tasks such as patent classification, patent retrieval and paragraph highlighting.
提供机构:
Clarivate
创建时间:
2025-09-18
搜集汇总
数据集介绍

构建方式
在专利自然语言处理领域,数据集的构建需兼顾专业性与规模性。本数据集从约1亿份专利文档中提取摘要和首项独立权利要求,并整合Derwent世界专利索引的专家重写文本。通过Unicode NFKC标准化和小写转换实现文本规范化,采用FastText语言识别过滤非英语内容,并应用MassiveText/Gopher启发式规则进行质量筛选。基于MinHash的模糊去重技术有效消除了专利家族中的冗余,最终形成包含6400万项专利、308亿词汇的高纯度语料库。
使用方法
该数据集专为掩码语言模型预训练设计,支持多种下游专利处理任务。使用时需经过文本标准化流程,包括Unicode规范化与小写转换,再通过定制BPE分词器进行子词分割。预训练采用30%掩码比例的动态掩码策略,配合线性学习率调度与4096的全局批处理大小。在微调阶段,建议采用3e-5学习率与AdamW优化器进行20轮训练,可应用于专利分类、检索和段落标注等任务,在保持推理速度提升3倍的同时实现领域性能优化。
背景与挑战
背景概述
专利语言模型预训练数据集由Clarivate研究团队于2025年构建,旨在解决通用BERT模型在专利文本领域表现不佳的问题。专利文献融合了法律语言与技术阐述,具有独特的词汇特征和句法结构,传统自然语言处理模型难以有效捕捉其专业语义。该数据集包含超过6000万条经过严格筛选的专利记录,涵盖摘要、独立权利要求及专家重写文本,为专利分类、检索和段落标注等任务提供了高质量训练资源。其创新性地采用ModernBERT架构与混合数据策略,显著提升了专利领域自然语言处理的准确性与效率,对知识产权智能化分析具有重要推动作用。
当前挑战
专利文本处理面临双重挑战:领域性问题方面,专利文献兼具法律严谨性与技术复杂性,包含大量专业术语、长程依赖结构和独特修辞模式,传统模型难以准确捕捉其语义层次和逻辑关联。构建过程挑战包括数据清洗难度极高,需处理HTML/XML标记、非英语字符及重复模板文本;专利家族聚类与近重复检测要求采用MinHash模糊去重技术;此外还需平衡专家重写文本与原始专利数据的比例,确保模型既能理解专业表述又能适应原始法律文本风格。
常用场景
经典使用场景
在专利自然语言处理领域,该数据集被广泛应用于专利文本的深度语义理解与分类任务。通过预训练的专利专用语言模型,研究者能够高效处理专利文档中特有的长文本结构、技术术语密集以及法律语言严谨等挑战,显著提升模型在专利自动分类、技术领域划分和知识产权分析中的准确性与效率。
解决学术问题
该数据集解决了通用语言模型在专利领域表现不佳的核心问题,通过领域自适应预训练弥补了专利文本与通用语料之间的分布差异。其意义在于为专利NLP研究提供了高质量的基准数据支撑,推动了专利自动摘要、权利要求解析和技术趋势挖掘等学术方向的发展,并显著提升了模型对专利文本中复杂语法和专业术语的泛化能力。
实际应用
在实际应用中,该数据集支撑了知识产权管理系统的智能化升级,包括专利检索增强、侵权检测自动化以及技术竞争力分析。企业利用基于该数据集训练的模型快速处理海量专利文献,精准识别技术空白点,辅助研发决策;法律机构则借助其实现专利法律状态的实时监控与风险预警,大幅提升知识产权服务的效率与精度。
数据集最近研究
最新研究方向
专利语言模型预训练领域正聚焦于架构优化与领域自适应技术的深度融合。ModernBERT-PT通过集成FlashAttention、旋转位置编码与门控线性单元等前沿技术,在6000万专利文献构成的语料上实现了高效预训练,显著提升了长文本处理能力与推理速度。当前研究热点集中于多语言专利分析、法律语义理解及跨技术领域的迁移学习,其突破性进展为知识产权自动化检索、技术趋势预测及专利质量评估提供了核心支撑,推动人工智能在知识产权服务领域的产业化应用迈向新阶段。
相关研究论文
- 1Patent Language Model Pretraining with ModernBERTClarivate · 2025年
以上内容由遇见数据集搜集并总结生成



