TMSDMAP/patent_dataset

Name: TMSDMAP/patent_dataset
Creator: TMSDMAP
Published: 2026-04-06 11:04:14
License: 暂无描述

Hugging Face2026-04-06 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/TMSDMAP/patent_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-classification language: - zh tags: - patent - legal - nlp - intellectual-property pretty_name: China Patent Dataset (2003-2020) size_categories: - 10M<n<100M --- # Chinese Patent Dataset (2003-2020) | 中国专利数据集 ## 1. 数据集简介 (Introduction) 本数据集包含了从 **2003年到2020年** 期间发布的约 **1800万份** 中国专利数据。数据涵盖了发明专利、实用新型等多种类型，是研究中国技术演进、知识产权保护以及进行法律大模型训练的高质量语料。 This dataset contains approximately **18 million** Chinese patent records published between **2003 and 2020**. It is a high-quality corpus for studying technology evolution in China and training legal/LLM models. ## 2. 数据规模 (Dataset Summary) - **时间跨度**: 2003 - 2020 - **数据总量**: 约 1,800 万条记录 - **原始格式**: JSON - **总体大小**: 约 250 GB (未压缩) ## 3. 数据字段 (Data Fields) 每个 JSON 条目通常包含以下字段（请根据实际情况修改）： - `patent_id`: 专利申请号/公开号 - `title`: 专利标题 - `abstract`: 摘要 - `claims`: 首项权利要求 - `classification`: IPC分类号 - `assignee`: 专利权人 - `app_date`: 申请日期 ## 4. 使用场景 (Usage) - **大模型预训练 (Pretraining)**: 作为科技与法律领域的垂直语料。 - **专利检索与推荐**: 训练向量索引模型进行相似专利检索。 - **技术趋势分析**: 挖掘近 20 年中国技术热点的迁移。 ## 5. 局限性 (Limitations) - 数据仅截至 2020 年，不包含近年的最新专利。 - 文本内容来源于原始数据转换，建议使用前进行简单的清洗。 ## 6. 许可协议 (License) 本项目采用 **Apache License 2.0** 协议开源。

提供机构：

TMSDMAP

5,000+

优质数据集

54 个

任务类型

进入经典数据集