five

CN-US-EU-JP-Patent_2020-2025

收藏
github2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/liuquan-ustc-qmai/CN-US-EU-JP-Patent_2020-2025
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2020年1月1日至2025年3月5日期间来自中国、美国、欧洲和日本的专利文档。数据来源:Google Patents。数据格式:TXT。数据量:约700万条记录。数据集已进行预处理,去除了一些低质量或损坏的专利。

This dataset encompasses patent documents from China, the United States, Europe, and Japan spanning from January 1, 2020, to March 5, 2025. The data source is Google Patents, and the format is TXT. The dataset comprises approximately 7 million records and has been preprocessed to remove some low-quality or corrupted patents.
创建时间:
2025-05-07
原始信息汇总

CN-US-EU-JP-Patent_2020-2025 数据集概述

数据集摘要

  • 内容:包含中国、美国、欧洲和日本从2020年1月1日至2025年3月5日的专利文档
  • 数据来源:Google Patents
  • 数据格式:TXT
  • 数据量:约700万条记录
  • 预处理:已移除部分低质量或损坏的专利

数据集地址

  • OpenXLab:https://openxlab.org.cn/datasets/lweiranl/CUEJ2025/tree/main

下载方式

OpenXLab

  • 下载仓库: sh openxlab dataset get -r lweiranl/CUEJ2025 -t /path/to/local/folder

  • 下载文件: sh openxlab dataset download -r lweiranl/CUEJ2025 -s ./patent_use/cn_use_1.zip -t /path/to/local/folder

数据集介绍

  • 处理原因:原始HTML文件包含大量冗余字段,占用存储空间大
  • 处理方式:提取专利关键字段,转换为字典格式的TXT文件并压缩
  • 处理效果:数据集大小减少至原始大小的5%

数据集大小

文件类型 大小
HTML 2391 GB
HTML(zip) 306 GB
TXT 834 GB
TXT(cleaning) 567 GB
TXT(cleaning,zip) 118 GB

文件夹结构

patent_use ├── cn_use_1.zip │ └── [CN119xxxxxxx.txt] ├── ... ├── cn_use_4.zip │ └── [CN111xxxxxxx.txt] ├── us_use_1.zip │ └── [US202500xxxxx.txt] ├── ... ├── us_use_5.zip │ └── [US202000xxxxx.txt] ├── eu_use_1.zip │ └── [EP44xxxxx.txt] ├── eu_use_2.zip │ └── [EP38xxxxx.txt] ├── jp_use_1.zip │ └── [JP20250xxxxx.txt] ├── jp_use_2.zip │ └── [JP20200xxxxx.txt]

文件结构

  • 每个专利对应一个同名的文本文件
  • 文件内容为单行字典,键为字段名,值为字段内容
  • 示例: python { Field 1: Content 1, Field 2: [Content 2-1, Content 2-2], Field 3: [{Field 3-1-1: Content 3-1-1, Field 3-1-2: Content 3-1-2}, {Field 3-2, Content 3-2}] }

字段模式

编号 字段 示例
1 publication_number US20240023456A1
2 title Semiconductor device and method...
3 authority [US, United States]
... ... ...
28 n_fcf 0

数据集清洗

条件字段

  • n_claims:权利要求数量
  • n_citations:引用数量
  • n_citedby:被引用数量
  • n_fctf:引用此专利族的专利族数量
  • n_fcf:此专利族引用的专利族数量

推荐标准

方面 任务指标 质量指标
原因 关键字段缺失 权利要求数量或被引用数量低
近两年专利 publication_number为None或classification为None n_claims <= 0或max(n_citations, n_citedby, n_fctf, n_fcf) <= 0
其他年份专利 publication_number为None或classification为None n_claims <= 5或max(n_citations, n_citedby, n_fctf, n_fcf) <= 2

代码

  • extract_fields.py:使用Beautifulsoup库从专利中提取重要字段
  • clean_data.py:基于设定的条件阈值进行数据清洗
  • CN_EU_multi_threaded_crawler.py:使用多线程加速下载中国和欧盟专利的爬虫
  • US_JP_multi_threaded_crawler.py:使用多线程加速下载美国和日本专利的爬虫

版权声明

  • 数据来源:Google Patents Public Datasets
  • 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)

引用

Quan Liu, Hongfei Bao, Jiameng Zhang. University of Science and Technology China, Qmai Inc. (2025). CN-US-EU-JP-Patent_2020-2025 (Version 1.0) [Data set]. GitHub. https://github.com/liuquan-ustc-qmai/CN-US-EU-JP-Patent_2020-2025

搜集汇总
数据集介绍
main_image_url
构建方式
在知识产权研究领域,多国专利数据的整合与分析具有重要意义。该数据集通过Python多线程爬虫技术从Google Patents平台系统采集2020至2025年间中、美、欧、日四地专利文献,原始HTML文件经Beautifulsoup库解析后,提取包含专利号、标题、法律状态等28个核心字段,采用字典结构存储为TXT格式。数据清洗阶段依据权利要求数量、引用次数等质量指标建立分层过滤机制,最终将原始2.3TB数据优化为118GB的压缩包,实现存储效率提升95%。
使用方法
针对不同应用场景,该数据集提供两种调用方式:通过OpenXLab平台可直接下载按国别分卷的ZIP压缩包,解压后使用标准JSON解析工具处理TXT文件;对于大规模分析任务,建议利用Python的glob模块批量读取文件,结合eval函数将文本转换为字典对象。研究者在进行跨国专利计量分析时,可重点考察publication_date与n_citedby字段的时序关联,或基于classifications字段开展技术领域共现分析。需要特别注意的是,使用前应检查legal_status字段以确保专利法律状态有效性,并参照清洗条件过滤低质量数据。
背景与挑战
背景概述
CN-US-EU-JP-Patent_2020-2025数据集由中国科学院大学与Qmai公司联合开发,于2025年正式发布,旨在为全球专利分析领域提供高质量的多国专利数据资源。该数据集涵盖中国、美国、欧洲和日本四大专利局2020年至2025年的约700万件专利文献,通过谷歌专利公开数据源获取,并经过关键字段提取和冗余信息清理等预处理。作为跨地域、跨学科的专利文本数据库,其结构化存储的专利摘要、权利要求、法律状态等26个核心字段,为专利价值评估、技术趋势分析等研究提供了重要基础。数据集采用字典式TXT存储和压缩技术,将原始体积优化至初始大小的5%,显著提升了数据使用效率。
当前挑战
构建该数据集面临双重挑战:在领域问题层面,专利文本具有法律与技术双重属性,其价值评估需综合权利要求数量、引用网络等多元指标,而低质量专利的噪声过滤需要建立动态阈值体系;在数据处理层面,原始HTML文件存在存储冗余(达2391GB),需开发基于Beautifulsoup的多线程爬虫系统实现高效解析,同时针对中欧美日四地差异化的专利编号规则(如中国连续编号与美国年度编号),需设计异构数据处理流程。数据清洗过程中,如何平衡保留早期低引用专利与过滤无效专利的矛盾,成为影响数据集质量的关键决策。
常用场景
经典使用场景
在知识产权与技术创新的研究领域,CN-US-EU-JP-Patent_2020-2025数据集为跨区域专利分析提供了重要支持。研究者通过该数据集可以深入比较中国、美国、欧洲和日本在关键技术领域的专利布局与创新趋势。例如,分析半导体、人工智能或生物医药等领域的专利分布,揭示不同地区的技术发展路径与竞争格局。数据集的高质量预处理与结构化存储,使得大规模专利文本挖掘成为可能,为技术预测与战略制定提供了坚实基础。
解决学术问题
该数据集有效解决了跨国专利数据整合与标准化处理的学术难题。通过统一提取关键字段并转换为结构化文本,研究者能够规避原始HTML文件的冗余问题,显著提升数据处理效率。在技术演进分析中,该数据集支持对专利引用网络、技术生命周期以及创新扩散模式的量化研究。同时,其清洗标准为低质量专利的筛选提供了科学依据,有助于提升专利价值评估模型的准确性,推动知识产权研究的实证化发展。
实际应用
企业研发部门可利用该数据集进行竞争对手技术监测与空白领域识别。通过分析目标公司的专利组合与技术布局,企业能够优化自身研发投入方向。政府机构则可借助跨区域专利对比,评估本国技术竞争力并制定产业政策。在法律服务领域,该数据集支持专利侵权分析和技术标准制定,其结构化字段设计极大提升了法律检索的效率,为知识产权诉讼提供数据支撑。
数据集最近研究
最新研究方向
随着全球科技创新步伐的加快,专利数据分析已成为技术预测和竞争情报研究的重要工具。CN-US-EU-JP-Patent_2020-2025数据集以其覆盖中国、美国、欧洲和日本四大专利局的庞大规模,为研究者提供了跨区域技术演进分析的宝贵资源。当前研究热点集中在利用自然语言处理技术挖掘专利文本中的技术趋势,通过深度学习方法构建专利价值评估模型,以及基于复杂网络理论分析跨国家专利引用关系。该数据集在揭示全球技术转移路径、预测新兴技术领域方面展现出独特价值,特别是在人工智能、清洁能源和生物医药等战略产业的专利布局分析中具有重要应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作