five

TMSDMAP/patent_dataset

收藏
Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/TMSDMAP/patent_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-classification language: - zh tags: - patent - legal - nlp - intellectual-property pretty_name: China Patent Dataset (2003-2020) size_categories: - 10M<n<100M --- # Chinese Patent Dataset (2003-2020) | 中国专利数据集 ## 1. 数据集简介 (Introduction) 本数据集包含了从 **2003年到2020年** 期间发布的约 **1800万份** 中国专利数据。数据涵盖了发明专利、实用新型等多种类型,是研究中国技术演进、知识产权保护以及进行法律大模型训练的高质量语料。 This dataset contains approximately **18 million** Chinese patent records published between **2003 and 2020**. It is a high-quality corpus for studying technology evolution in China and training legal/LLM models. ## 2. 数据规模 (Dataset Summary) - **时间跨度**: 2003 - 2020 - **数据总量**: 约 1,800 万条记录 - **原始格式**: JSON - **总体大小**: 约 250 GB (未压缩) ## 3. 数据字段 (Data Fields) 每个 JSON 条目通常包含以下字段(请根据实际情况修改): - `patent_id`: 专利申请号/公开号 - `title`: 专利标题 - `abstract`: 摘要 - `claims`: 首项权利要求 - `classification`: IPC分类号 - `assignee`: 专利权人 - `app_date`: 申请日期 ## 4. 使用场景 (Usage) - **大模型预训练 (Pretraining)**: 作为科技与法律领域的垂直语料。 - **专利检索与推荐**: 训练向量索引模型进行相似专利检索。 - **技术趋势分析**: 挖掘近 20 年中国技术热点的迁移。 ## 5. 局限性 (Limitations) - 数据仅截至 2020 年,不包含近年的最新专利。 - 文本内容来源于原始数据转换,建议使用前进行简单的清洗。 ## 6. 许可协议 (License) 本项目采用 **Apache License 2.0** 协议开源。
提供机构:
TMSDMAP
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作