ep-patents-coarse-cleaned
收藏Hugging Face2025-09-07 更新2025-09-08 收录
下载链接:
https://huggingface.co/datasets/mhurhangee/ep-patents-coarse-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含已清洗的欧洲专利(EP)文档描述和第一条声明的数据集,适用于自然语言处理任务,如语言模型预训练。数据集涵盖了从2024年9月4日至2025年9月4日的英文授权EP专利。
This is a dataset containing cleaned European Patent (EP) document descriptions and their corresponding first claims, suitable for natural language processing tasks such as language model pre-training. The dataset covers English-authorized EP patents spanning from September 4, 2024 to September 4, 2025.
创建时间:
2025-09-06
原始信息汇总
数据集概述
基本信息
- 数据集名称:Coarse Cleaned EP Patents
- 许可协议:MIT
- 语言:英语(en)
- 数据格式:JSONL(每行一个JSON对象)
数据内容
- 来源:欧洲专利局(EP)授权的专利文档
- 时间范围:2024年9月4日至2025年9月4日(一年期)
- 字段:
description:清理后的英文描述文本claim1:清理后的英文首项权利要求
数据规模
- 训练集样本数:73,986
- 训练集大小:3,529,143,720字节
- 下载大小:1,246,348,287字节
数据处理流程
-
语言过滤
- 仅包含英文描述的专利
- 仅提取首项权利要求
-
文本提取
- 从子XML元素递归提取文本
- 保留段落(
<p>)并用双换行符分隔
-
特殊标记替换
- 替换特定XML标签为标记符号(如
<table>→<TAB>) - 移除列表标签(
<ol>,<ul>,<dl>)
- 替换特定XML标签为标记符号(如
-
数字规范化
- 带SI单位的数字替换为
<NUM> - 保留单词内数字(如"CO2")
- 带SI单位的数字替换为
-
空白规范化
- 移除冗余空格
- 保持段落分隔
-
注释移除
- 移除XML注释
-
异常值修剪
- 移除最长10%和最短2%的权利要求和描述
-
精确去重
- 基于claim1和description移除完全重复项
-
段落处理
- 移除短于40字符和长于10240字符的段落
- 移除文档内重复段落
相关资源
- GitHub仓库:https://github.com/mhurhangee/openpatent
- 内容:清理脚本和笔记本示例
搜集汇总
数据集介绍

构建方式
在专利文本处理领域,ep-patents-coarse-cleaned数据集通过多阶段精细化流程构建而成。首先基于欧洲专利局授权的英文专利文档,采用严格语言过滤机制仅保留含英语描述及首项权利要求的文本。通过递归式XML解析技术提取文本内容并保留段落结构,同时将特定XML标签替换为标准化标记以消除格式噪声。实施数字归一化处理与空白字符规范化,并运用统计方法剔除长度异常及重复段落,最终通过精确去重生成高质量JSONL格式数据。
特点
该数据集凸显三大核心特征:其文本质量经过多级清洗优化,通过替换特殊标签与保留段落分隔符确保语义完整性。规模上涵盖73986项专利文档,时间跨度为整年度授权专利,具有显著的时间连续性与领域覆盖度。结构设计针对自然语言处理任务优化,采用标准化JSONL格式存储,每个样本包含描述文本与首项权利要求两个关键字段,为语言模型预训练提供理想的数据支撑。
使用方法
研究者可借助该数据集开展专利语义理解与创新分析研究。直接加载JSONL文件后,文本字段可直接输入语言模型进行预训练或微调,特别适合专利分类、摘要生成和权利要求分析等下游任务。使用时应注重特殊标记(如<TAB>、<NUM>)的语义处理,建议参考GitHub提供的清洗脚本实现数据预处理流程复现,确保与原始数据处理逻辑的一致性。
背景与挑战
背景概述
欧洲专利数据集ep-patents-coarse-cleaned由研究团队于2024年构建,专注于专利文本的自然语言处理任务。该数据集基于欧洲专利局(EPO)授权的英文专利文档,涵盖了2024年9月至2025年9月期间的73986项专利,核心研究问题在于如何高效处理专利文本的复杂结构以支持语言模型预训练。其影响力体现在推动知识产权领域的自动化分析,为法律技术、信息检索和人工智能应用提供了高质量语料,促进了跨学科研究的进展。
当前挑战
该数据集解决的领域挑战包括专利文本的结构复杂性,如XML标签嵌套、多模态元素(表格、图像)整合,以及专业术语的标准化处理。构建过程中的挑战涉及语言过滤的精确性,确保仅保留英文内容;文本提取需递归处理XML层次结构;特殊符号替换和数字归一化以保持语义一致性;异常值修剪和去重操作以防止数据偏差,这些步骤共同保障了数据集的清洁度和适用性。
常用场景
经典使用场景
在专利文本挖掘领域,ep-patents-coarse-cleaned数据集为自然语言处理模型提供了高质量的预训练语料。其经过深度清洗的英文专利描述与首项权利要求文本,特别适合用于训练能够理解技术文献复杂语义结构的大规模语言模型。研究者通常利用该数据集构建专利领域的专用语言模型,以提升对技术术语、法律声明和科学表述的解析能力。
解决学术问题
该数据集有效解决了专利文本自动化处理中的若干核心学术问题,包括技术术语的标准化表示、长文本语义理解以及跨领域知识迁移。通过替换特殊符号与标准化数字表达,它降低了模型训练中的噪声干扰,为研究专利文本的语义相似性计算、技术趋势分析和知识图谱构建提供了可靠基础。其清理流程更为专利文本的机器学习处理建立了新的质量标准。
衍生相关工作
该数据集催生了多项重要研究工作,包括基于专利文本的预训练语言模型如PatentBERT和SciPat的开发。这些模型在专利质量评估、技术领域分类和专利摘要生成等任务中表现出色。此外,该数据集还促进了跨语言专利分析系统的研究,为全球化知识产权保护提供了新的技术解决方案,推动了计算法学与人工智能的交叉学科发展。
以上内容由遇见数据集搜集并总结生成



