us-patents
收藏Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://huggingface.co/datasets/allenai/us-patents
下载链接
链接失效反馈官方服务:
资源简介:
us-patents数据集是一个包含约800万美国专利授权和申请的数据集,时间跨度为1976年至2025年。数据集经过清洗、过滤和格式化,适用于语言模型的预训练。文档格式包括唯一整数键、申请日期、专利类型和文本内容。处理步骤包括去重、法律程序内容移除、非英语内容移除、低概率段落移除、低信息文本移除、版权声明移除和设计专利移除。数据集分为训练集和验证集,分别包含7,820,247和79,836个文档。
提供机构:
Allen Institute for AI
创建时间:
2025-12-05
原始信息汇总
US-Patents 数据集概述
数据集简介
该数据集是一个包含约800万份美国专利授权和申请的集合,时间跨度为1976年至2025年。数据经过清洗、过滤和格式化,适用于语言模型的预训练。
核心属性
- 任务类别:文本生成、掩码填充
- 领域标签:生物学、化学、工程学、计算机科学、材料科学、经济学、商业
- 许可证:ODC-BY
- 数据来源:PatentsView (www.patentsview.org)
文档格式
每个文档包含以下字段:
corpus_id:无语义值的唯一整数键。filing_date:授权或申请的提交日期。若存在重复,则采用重复集群中的最早提交日期。patent_type:专利类型。text:拼接后的标题、摘要和说明书文本内容。
数据处理流程
为保留科学与技术信息,应用了以下预处理步骤:
- 去重:对(授权,申请)对仅保留单条记录,并包含尚未授权或未被放弃的申请。基于文档内容,在5-gram 90% Jaccard相似度上进行文档级去重。
- 法律程序内容移除:移除与法律程序相关的常见内容,例如关于实施例未详尽列举的标准表述及其他与所涉技术无直接关系的常见法律语言。
- 英语内容筛选:移除极低概率为英语散文的内容。
- 非典型散文移除:移除平均单词对数概率极低的段落。具体移除所有平均对数单词概率低于
-20的章节。计算使用从1T Web Ngram语料库提取的词频,具体使用Rachel Tatman创建的列表。副本托管于此处。 - 低信息文本移除:移除极易压缩的段落,例如冗长的琐碎实施例组合枚举列表。
- 版权声明移除:省略包含USPTO关于说明书部分版权标准声明变体的专利说明书。
- 外观设计专利移除:省略专利类型为外观设计的授权和申请。
数据统计
| 数据分割 | 文档数量 | 日期范围 |
|---|---|---|
| 训练集 | 7,820,247 | 1976-01-02 至 2025-01-13 |
| 验证集 | 79,836 | 2025-01-14 至 2025-09-19 |
使用许可与归属
- 本数据集依据ODC-BY许可证提供。
- 旨在根据AI2负责任使用指南用于研究和教育目的。
- 归属:PatentsView (www.patentsview.org)。
搜集汇总
数据集介绍

构建方式
在知识产权与科技创新领域,专利文献作为技术信息的重要载体,其系统化整理对语言模型预训练具有关键价值。us-patents数据集通过多阶段精细处理构建而成,首先从1976年至2025年的美国专利授权与申请中收集约800万份文档,并基于文档内容进行去重处理,采用五元组90%杰卡德相似度确保数据唯一性。随后移除与法律程序相关的标准表述、非英语内容及信息密度较低的段落,同时排除设计专利,最终保留标题、摘要和说明书拼接而成的文本内容,旨在最大化保留科技信息的核心要素。
特点
该数据集覆盖生物学、化学、工程学、计算机科学、材料科学及经济学等多个前沿学科,呈现出跨领域技术知识的深度融合。其时间跨度长达半个世纪,完整记录了技术演进的历史轨迹,为研究创新趋势提供了时序分析基础。数据经过严格清洗与过滤,有效去除了冗余法律文本与低信息密度内容,确保了文本质量与信息纯度,同时通过训练集与验证集的合理划分,支持模型在时间泛化能力上的评估与优化。
使用方法
us-patents数据集适用于文本生成与掩码填充等自然语言处理任务,尤其适合作为大规模语言模型的预训练语料。研究者可依据专利类型、申请日期等元数据对数据进行细分,以开展领域特定的技术分析或创新模式挖掘。在使用过程中,需遵循ODC-BY许可协议,并参考Ai2负责任使用指南,确保其在研究与教育用途中的合规性。数据集的验证集覆盖近期时间范围,可用于测试模型对新兴技术概念的泛化性能,从而推动人工智能在科技情报分析中的应用。
背景与挑战
背景概述
在人工智能与自然语言处理领域,专利文献作为技术创新的核心载体,蕴含着丰富的科学与工程知识。us-patents数据集由Allen Institute for AI(AI2)等机构基于PatentsView数据构建,涵盖了1976年至2025年间约800万项美国专利授权与申请文本,经过清洗与格式化处理,专为语言模型的预训练而设计。该数据集聚焦于跨学科技术文本的挖掘,旨在推动生物、化学、工程、计算机科学等多领域知识的高效表征与生成,为专利分析、技术趋势预测及科学文献理解提供了关键资源,显著增强了语言模型在专业领域的语义理解能力。
当前挑战
us-patents数据集致力于解决专利文本分析与知识提取中的复杂挑战,其核心问题在于如何从海量、结构异质且富含专业术语的文档中,构建高质量、无噪声的语料库。在构建过程中,研究人员面临多重挑战:首先,专利文本常包含大量法律程序性内容与重复实施例,需通过去重与内容过滤以保留核心技术信息;其次,设计专利与非英语文本的剔除要求精确的语言与类型识别;此外,低信息密度段落与版权声明的移除需依赖统计压缩与模式匹配技术,以确保语料的纯净性与信息密度。这些挑战共同指向专利语料在规模、质量与领域适应性间的平衡难题。
常用场景
经典使用场景
在自然语言处理领域,专利文本因其技术密集、结构规范的特点,常被用于预训练大规模语言模型。us-patents数据集作为覆盖多学科领域的专利文档集合,为模型提供了丰富的科技知识背景,尤其在文本生成和掩码填充任务中,能够有效提升模型对专业术语和复杂技术描述的理解与生成能力。
解决学术问题
该数据集解决了学术研究中专利信息处理中的关键挑战,如技术文档去重、法律语言过滤及低信息内容剔除。通过精细的数据清洗流程,它确保了文本质量,为研究专利文本挖掘、跨领域知识迁移及科技趋势分析提供了可靠基础,推动了人工智能在知识产权分析中的应用进展。
衍生相关工作
基于us-patents数据集,衍生出多项经典研究工作,包括专利分类模型、技术语义检索系统以及跨学科知识图谱构建。这些工作不仅深化了专利文本的语义表示学习,还促进了科技政策分析与创新生态研究,为人工智能与知识产权交叉领域的发展奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



