CN-US-EU-JP-Patent_2020-2025
收藏CN-US-EU-JP-Patent_2020-2025 数据集概述
数据集摘要
- 内容:包含中国、美国、欧洲和日本从2020年1月1日至2025年3月5日的专利文档
- 数据来源:Google Patents
- 数据格式:TXT
- 数据量:约700万条记录
- 预处理:已移除部分低质量或损坏的专利
数据集地址
- OpenXLab:https://openxlab.org.cn/datasets/lweiranl/CUEJ2025/tree/main
下载方式
OpenXLab
-
下载仓库: sh openxlab dataset get -r lweiranl/CUEJ2025 -t /path/to/local/folder
-
下载文件: sh openxlab dataset download -r lweiranl/CUEJ2025 -s ./patent_use/cn_use_1.zip -t /path/to/local/folder
数据集介绍
- 处理原因:原始HTML文件包含大量冗余字段,占用存储空间大
- 处理方式:提取专利关键字段,转换为字典格式的TXT文件并压缩
- 处理效果:数据集大小减少至原始大小的5%
数据集大小
| 文件类型 | 大小 |
|---|---|
| HTML | 2391 GB |
| HTML(zip) | 306 GB |
| TXT | 834 GB |
| TXT(cleaning) | 567 GB |
| TXT(cleaning,zip) | 118 GB |
文件夹结构
patent_use ├── cn_use_1.zip │ └── [CN119xxxxxxx.txt] ├── ... ├── cn_use_4.zip │ └── [CN111xxxxxxx.txt] ├── us_use_1.zip │ └── [US202500xxxxx.txt] ├── ... ├── us_use_5.zip │ └── [US202000xxxxx.txt] ├── eu_use_1.zip │ └── [EP44xxxxx.txt] ├── eu_use_2.zip │ └── [EP38xxxxx.txt] ├── jp_use_1.zip │ └── [JP20250xxxxx.txt] ├── jp_use_2.zip │ └── [JP20200xxxxx.txt]
文件结构
- 每个专利对应一个同名的文本文件
- 文件内容为单行字典,键为字段名,值为字段内容
- 示例: python { Field 1: Content 1, Field 2: [Content 2-1, Content 2-2], Field 3: [{Field 3-1-1: Content 3-1-1, Field 3-1-2: Content 3-1-2}, {Field 3-2, Content 3-2}] }
字段模式
| 编号 | 字段 | 示例 |
|---|---|---|
| 1 | publication_number | US20240023456A1 |
| 2 | title | Semiconductor device and method... |
| 3 | authority | [US, United States] |
| ... | ... | ... |
| 28 | n_fcf | 0 |
数据集清洗
条件字段
- n_claims:权利要求数量
- n_citations:引用数量
- n_citedby:被引用数量
- n_fctf:引用此专利族的专利族数量
- n_fcf:此专利族引用的专利族数量
推荐标准
| 方面 | 任务指标 | 质量指标 |
|---|---|---|
| 原因 | 关键字段缺失 | 权利要求数量或被引用数量低 |
| 近两年专利 | publication_number为None或classification为None |
n_claims <= 0或max(n_citations, n_citedby, n_fctf, n_fcf) <= 0 |
| 其他年份专利 | publication_number为None或classification为None |
n_claims <= 5或max(n_citations, n_citedby, n_fctf, n_fcf) <= 2 |
代码
extract_fields.py:使用Beautifulsoup库从专利中提取重要字段clean_data.py:基于设定的条件阈值进行数据清洗CN_EU_multi_threaded_crawler.py:使用多线程加速下载中国和欧盟专利的爬虫US_JP_multi_threaded_crawler.py:使用多线程加速下载美国和日本专利的爬虫
版权声明
- 数据来源:Google Patents Public Datasets
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
引用
Quan Liu, Hongfei Bao, Jiameng Zhang. University of Science and Technology China, Qmai Inc. (2025). CN-US-EU-JP-Patent_2020-2025 (Version 1.0) [Data set]. GitHub. https://github.com/liuquan-ustc-qmai/CN-US-EU-JP-Patent_2020-2025




