ds4sd/USPTO-30K

Name: ds4sd/USPTO-30K
Creator: ds4sd
Published: 2023-08-24 08:28:32
License: 暂无描述

Hugging Face2023-08-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ds4sd/USPTO-30K

下载链接

链接失效反馈

官方服务：

资源简介：

USPTO-30K是一个大规模标注分子图像的基准数据集，旨在克服现有光学化学结构识别基准的局限性。该数据集由美国专利商标局的图像和MolFiles对创建，包含三个子集：USPTO-10K（无缩写基团的清洁分子）、USPTO-10K-abb（含有超原子基团的分子）和USPTO-10K-L（超过70个原子的清洁分子）。每个分子均独立选自2001年至2020年的所有可用文档。

提供机构：

ds4sd

原始信息汇总

数据集概述

数据集名称

USPTO-30K

数据集特征

filename: 数据类型为字符串。
image: 数据类型为图像。
mol: 数据类型为字符串。

数据集分割

clean: 包含10,000个样本，总大小为88,030,343字节。
abbreviated: 包含10,000个样本，总大小为84,064,086字节。
large: 包含10,000个样本，总大小为238,905,697字节。

数据集大小

下载大小: 291,334,748字节。
数据集总大小: 411,000,126字节。

搜集汇总

数据集介绍

构建方式

在化学信息学领域，高质量的数据集对于推动光学化学结构识别技术的发展至关重要。USPTO-30K数据集的构建基于美国专利商标局提供的图像与MolFiles配对数据，通过系统化筛选2001年至2020年间所有可用文档中的分子结构，确保了数据来源的广泛性与代表性。该数据集精心划分为三个独立子集，分别涵盖清洁分子、含缩写基团分子及大型分子，每个子集均包含一万个样本，这种分层设计有效避免了传统数据集中分子相似性过高的问题，为模型评估提供了更为严谨的基准。

使用方法

该数据集为化学结构识别研究提供了标准化的实验平台，使用者可通过加载指定子集获取对应的分子图像与结构数据。在模型训练阶段，研究人员可依据任务需求选择清洁、含缩写或大型分子子集进行针对性训练，以验证模型在不同分子类型上的泛化能力。评估过程中，数据集的分层结构允许对模型性能进行细粒度分析，特别是在处理缩写基团与大型分子时的表现，从而推动光学化学结构识别技术向更高效、更稳健的方向发展。

背景与挑战

背景概述

在化学信息学领域，光学化学结构识别（OCSR）技术致力于从图像中自动提取分子结构信息，以加速药物发现与材料科学的研究进程。USPTO-30K数据集由DS4SD研究团队于2023年构建，基于美国专利商标局（USPTO）2001年至2020年的专利文档，精心挑选了30000个独立的分子图像与MolFile配对数据。该数据集旨在解决现有基准数据集中分子相似性过高、分子类型混杂的问题，通过划分为清洁分子、含缩写基团分子及大型分子三个子集，为模型评估提供了更精确、更具代表性的基准，显著推动了化学结构识别算法的可靠性与泛化能力发展。

当前挑战

USPTO-30K数据集所针对的光学化学结构识别任务，核心挑战在于准确解析复杂图像中的化学结构，尤其是处理含缩写基团或原子数超过70的大型分子时，模型需克服结构歧义与视觉噪声的干扰。在数据集构建过程中，研究人员面临从海量专利文档中独立筛选分子、确保样本多样性以避免批次相似性、以及严格区分清洁分子与特殊结构类型等难题，这些挑战要求精细的数据标注策略与质量控制，以保障数据集的科学严谨性与实用价值。

常用场景

经典使用场景

在化学信息学领域，光学化学结构识别（OCSR）是解析分子图像并转化为机器可读格式的关键任务。USPTO-30K数据集作为该领域的基准数据集，其经典使用场景在于评估和优化分子图识别模型，特别是针对专利文档中多样化的分子图像。该数据集通过提供三个子集——清洁分子、含缩写基团分子及大型分子，使研究者能够系统测试模型在不同复杂度化学结构上的泛化能力，从而推动OCSR技术的精准化发展。

解决学术问题

传统OCSR基准数据集常受限于样本同质性和分子类型混杂问题，难以反映真实专利文档的多样性。USPTO-30K通过从2001至2020年美国专利商标局文档中独立抽取分子图像与MolFile配对数据，构建了规模化的标注数据集。它有效解决了模型评估场景单一、超原子基团与Markush特征干扰等学术挑战，为化学结构识别研究提供了层次化评估框架，促进了该领域方法论的系统性革新。

实际应用

在实际应用中，USPTO-30K数据集支撑着专利化学信息的高效数字化进程。制药企业与研究机构可利用基于该数据集训练的模型，自动提取专利文献中的分子结构，加速药物先导化合物发现与知识产权分析。其细分子集设计尤其适用于处理含复杂缩写或大分子结构的工业级文档，显著提升了化学数据库构建与知识图谱生成的自动化水平，为生物医药研发提供了可靠的数据解析基础设施。

数据集最近研究