uspto-mol

Hugging Face2024-12-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/xiegeo/uspto-mol

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于美国分子专利授予的中间数据集，从USPTO每周发布的专利授予数据中提取，特别是包含.mol文件的专利。数据按年份、周次和子目录组织，保留原始的redbook目录结构。数据集通过git lfs仓库的形式共享，便于访问。通过运行update_data.py脚本可以更新数据集，支持从指定年份开始更新。

This is an intermediate dataset for U.S. molecular patent grants, extracted from the weekly released patent grant data of the United States Patent and Trademark Office (USPTO), specifically including patents with .mol files. The data is organized by year, week and subdirectories, retaining the original redbook directory structure. The dataset is shared via a Git LFS repository for convenient access. The dataset can be updated by running the update_data.py script, supporting updates starting from a specified year.

创建时间：

2024-12-04

原始信息汇总

USPTO Molecular Patent Grants Dataset

概述

该数据集从美国专利商标局（USPTO）的每周发布数据中提取，仅保留包含.mol文件的专利数据，适用于下游数据挖掘用例。

数据结构

数据目录结构如下： bash data/{year}/{weekly}/{sub_dir}/{filename}.ZIP

每个文件代表一个完整的专利授权，保留了原始的redbook目录结构。weekly表示每周的发布日期，格式可能不一致。

数据更新

通过运行update_data.py脚本可以更新数据集。脚本选项包括：

--quick: 仅处理最多一个新周期的文件。
--keep: 保留原始下载的文件。
--stream: 删除所有本地推送的lfs文件和对象。
--verbose: 打印详细日志。
--from_year: 从指定年份开始（默认2001年）。
--to_year: 结束于指定年份（默认当前年份）。

数据变更日志

DATA-CHANGELOG.md文件记录了每次处理的每周数据的统计信息。

搜集汇总

数据集介绍

构建方式

uspto-mol数据集的构建基于美国专利商标局（USPTO）每周发布的专利授权数据，从`bulkdata.uspto.gov/data/patent/grant/redbook/{year}`中提取，并筛选出包含`.mol`文件的专利。与现有工作相比，该数据集不仅保留了`.mol`文件，还包含了`.til`图像文件，并采用Git LFS存储方式，便于用户更便捷地访问。数据集的目录结构按照年份、每周发布日期和子目录进行组织，保留了原始的Redbook目录结构。

特点

uspto-mol数据集的特点在于其专注于化学领域的专利数据，特别是包含化学结构信息的`.mol`文件。此外，数据集还保留了与专利相关的`.til`图像文件，提供了更全面的信息。尽管数据质量存在一定问题，如自动化标注导致的错误，但该数据集为化学领域的数据挖掘提供了丰富的资源。

使用方法

使用uspto-mol数据集时，用户可以通过运行`update_data.py`脚本更新数据集，指定起始年份和结束年份以获取特定时间段的专利数据。脚本支持多种选项，如快速处理、保留原始下载文件、详细日志输出等。数据集的更新过程会记录在`DATA-CHANGELOG.md`文件中，便于用户追踪数据的变化。

背景与挑战

背景概述

uspto-mol数据集是由美国专利商标局（USPTO）发布的专利授予数据中提取的中间数据集，专门针对包含`.mol`文件的专利进行筛选和整理。该数据集的核心目标是为下游数据挖掘任务提供高质量的化学结构数据。其创建时间可追溯至2023年，主要研究人员或机构可能包括MIT的Learning Matter团队，该团队在专利化学数据处理领域已有相关研究。uspto-mol数据集的构建旨在解决现有数据集（如PatentChem）在文件保留和访问便捷性方面的不足，特别是通过保留`.til`图像文件并采用Git LFS存储方式，提升了数据的可访问性和处理效率。该数据集的发布对化学信息学和专利数据挖掘领域具有重要意义，尤其在自动化化学结构提取和生成建模方面展现了潜在的应用价值。

当前挑战

uspto-mol数据集在构建过程中面临多项挑战。首先，数据质量问题尤为突出，原始数据中存在大量不一致的化学结构标注，尤其是非化学相关图像的错误标注，表明自动化标注流程缺乏足够的人工质量保证。其次，数据格式和目录结构随时间变化的不一致性增加了数据处理的复杂性，尤其是在处理不同年份和周期的专利数据时。此外，尽管该数据集旨在提升数据访问的便捷性，但如何有效管理和更新大规模的专利数据，尤其是在处理并行脚本和数据流时，仍是一个技术难题。未来工作需进一步解决数据质量问题，并探索更高效的数据更新和维护策略。

常用场景

经典使用场景

在化学与专利领域的交叉研究中，uspto-mol数据集扮演着至关重要的角色。该数据集从美国专利商标局（USPTO）的每周发布数据中提取专利授予信息，并筛选出包含`.mol`文件的专利，为下游数据挖掘任务提供了丰富的化学结构数据。其经典使用场景包括化学反应预测、分子生成模型训练以及专利化学信息的自动化提取，尤其是在处理大规模化学专利数据时，该数据集展现了其独特的优势。

实际应用

在实际应用中，uspto-mol数据集广泛应用于药物研发、化学品生产和专利分析等领域。例如，制药公司可以利用该数据集中的化学结构信息进行药物分子的设计和优化，从而加速新药的研发进程。同时，化学品生产企业可以通过分析专利数据，了解行业趋势和技术前沿，制定更具竞争力的研发策略。此外，专利律师和分析师也可以借助该数据集快速检索和分析相关专利，提升工作效率。

衍生相关工作

uspto-mol数据集的发布催生了一系列相关研究工作。例如，MIT的Learning Matter团队基于该数据集开发了PatentChem项目，利用自动化专利提取技术进行化学空间的生成建模。此外，该数据集还启发了其他研究者开发专利数据处理工具，如专利处理器（PatentProcessor），用于从`.xml`文件中提取信息。这些衍生工作不仅丰富了化学信息学的研究内容，也为专利数据的深度挖掘提供了新的技术手段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集