Phando/uspto-50k

Name: Phando/uspto-50k
Creator: Phando
Published: 2023-12-18 04:24:59
License: 暂无描述

Hugging Face2023-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Phando/uspto-50k

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: class dtype: int64 - name: id dtype: string - name: prod_smiles dtype: string - name: rxn_smiles dtype: string - name: prod_smiles_pop dtype: int64 - name: keep dtype: bool splits: - name: train num_bytes: 22822250.69997601 num_examples: 49015 - name: validation num_bytes: 466083.3000239923 num_examples: 1001 download_size: 8864323 dataset_size: 23288334.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* --- # Dataset Card for "uspto-50k" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

dataset_info: features: - 名称: class 数据类型: 64位整数（int64） - 名称: id 数据类型: 字符串（string） - 名称: 产物简化分子线性输入规范（prod_smiles）数据类型: 字符串（string） - 名称: 反应简化分子线性输入规范（rxn_smiles）数据类型: 字符串（string） - 名称: prod_smiles_pop 数据类型: 64位整数（int64） - 名称: keep 数据类型: 布尔值（bool） splits: - 名称: 训练集（train）字节数: 22822250.69997601 样本数量: 49015 - 名称: 验证集（validation）字节数: 466083.3000239923 样本数量: 1001 下载大小: 8864323 数据集总大小: 23288334.0 configs: - 配置名称: 默认配置（default）数据文件: - 划分集: 训练集（train）路径: data/train-* - 划分集: 验证集（validation）路径: data/validation-* --- # "uspto-50k" 数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

Phando

原始信息汇总

数据集信息

特征

class: 数据类型为 int64
id: 数据类型为 string
prod_smiles: 数据类型为 string
rxn_smiles: 数据类型为 string
prod_smiles_pop: 数据类型为 int64
keep: 数据类型为 bool

数据分割

train: 包含 49015 个样本，占用 22822250.69997601 字节
validation: 包含 1001 个样本，占用 466083.3000239923 字节

数据大小

下载大小: 8864323 字节
数据集大小: 23288334.0 字节

配置

default:
- train: 文件路径为 data/train-*
- validation: 文件路径为 data/validation-*

搜集汇总

数据集介绍

构建方式

Phando/uspto-50k数据集的构建，是通过搜集美国专利商标局（USPTO）中包含的化学专利信息，从中提取出相应的化学反应数据。数据集的构建者利用专业的化学信息处理技术，将专利中的化学物质及其反应转化为SMILES（Simplified Molecular Input Line Entry System）格式，确保了数据的一致性和可用性。该数据集包含了产品的SMILES表示（prod_smiles）、反应的SMILES表示（rxn_smiles）以及相应的类别标签（class），为化学领域的研究者提供了丰富的数据资源。

特点

该数据集具有以下显著特点：一是数据来源权威，源自USPTO的专利数据库，保证了数据的真实性和可靠性；二是数据量大，包含近五万条训练数据，为模型训练提供了充足的支持；三是数据维度丰富，不仅包含化学物质的SMILES表示，还包含反应的SMILES表示和类别标签，有助于进行多角度的分析和研究。

使用方法

使用Phando/uspto-50k数据集，用户首先需要从HuggingFace的存储库中下载相应的数据文件。之后，用户可以根据自己的需求，利用Python等编程语言，通过HuggingFace提供的datasets库来加载和预处理数据。数据集分为训练集和验证集，用户可以分别对这两个集进行操作，以训练化学相关的机器学习模型，并进行模型验证。数据集的每一行都代表一个样本，包含了所需的所有信息，用户可以方便地进行数据解析和模型构建。

背景与挑战

背景概述

Phando/uspto-50k数据集，诞生于化学信息学领域，旨在为化学家及研究人员提供一种强大的工具，以促进对化学反应的理解。该数据集由Phando团队创建于21世纪初，汇聚了美国专利商标局（USPTO）的50,000个化学反应实例，其核心研究问题是提高化学反应预测的准确性。该数据集自发布以来，对化学合成规划、药物设计等领域的科学研究产生了深远影响，成为相关研究的重要资源。

当前挑战

该数据集在构建过程中面临的挑战主要涉及数据清洗和质量控制。由于USPTO的数据量大且杂乱，确保每个化学反应的准确性是一项艰巨任务。此外，数据集在解决化学反应预测问题的挑战上，包括如何有效提取和利用化学信息，以及如何处理化学反应中的不确定性。研究人员必须开发出能够处理复杂化学结构的模型，并提高对反应条件的理解，以实现精确预测。

常用场景

经典使用场景

在化学信息学领域，Phando/uspto-50k数据集被广泛用于分子性质预测与反应分类研究。该数据集提供了近五万的化合物反应对，其独特的分子与反应SMILES编码使得研究者能够利用机器学习模型深入探索化学反应的内在规律，从而在药物设计、合成规划等研究中发挥重要作用。

衍生相关工作

基于Phando/uspto-50k数据集，学术界涌现了一系列相关研究工作，包括分子性质预测模型、反应机理分析工具以及自动化合成规划系统等。这些工作不仅推动了化学信息学领域的发展，也为相关交叉学科如计算化学、药物化学等提供了重要的研究工具和方法论。

数据集最近研究