five

Phando/uspto-50k

收藏
Hugging Face2023-12-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Phando/uspto-50k
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: class dtype: int64 - name: id dtype: string - name: prod_smiles dtype: string - name: rxn_smiles dtype: string - name: prod_smiles_pop dtype: int64 - name: keep dtype: bool splits: - name: train num_bytes: 22822250.69997601 num_examples: 49015 - name: validation num_bytes: 466083.3000239923 num_examples: 1001 download_size: 8864323 dataset_size: 23288334.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* --- # Dataset Card for "uspto-50k" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

dataset_info: features: - 名称: class 数据类型: 64位整数(int64) - 名称: id 数据类型: 字符串(string) - 名称: 产物简化分子线性输入规范(prod_smiles) 数据类型: 字符串(string) - 名称: 反应简化分子线性输入规范(rxn_smiles) 数据类型: 字符串(string) - 名称: prod_smiles_pop 数据类型: 64位整数(int64) - 名称: keep 数据类型: 布尔值(bool) splits: - 名称: 训练集(train) 字节数: 22822250.69997601 样本数量: 49015 - 名称: 验证集(validation) 字节数: 466083.3000239923 样本数量: 1001 下载大小: 8864323 数据集总大小: 23288334.0 configs: - 配置名称: 默认配置(default) 数据文件: - 划分集: 训练集(train) 路径: data/train-* - 划分集: 验证集(validation) 路径: data/validation-* --- # "uspto-50k" 数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Phando
原始信息汇总

数据集信息

特征

  • class: 数据类型为 int64
  • id: 数据类型为 string
  • prod_smiles: 数据类型为 string
  • rxn_smiles: 数据类型为 string
  • prod_smiles_pop: 数据类型为 int64
  • keep: 数据类型为 bool

数据分割

  • train: 包含 49015 个样本,占用 22822250.69997601 字节
  • validation: 包含 1001 个样本,占用 466083.3000239923 字节

数据大小

  • 下载大小: 8864323 字节
  • 数据集大小: 23288334.0 字节

配置

  • default:
    • train: 文件路径为 data/train-*
    • validation: 文件路径为 data/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
Phando/uspto-50k数据集的构建,是通过搜集美国专利商标局(USPTO)中包含的化学专利信息,从中提取出相应的化学反应数据。数据集的构建者利用专业的化学信息处理技术,将专利中的化学物质及其反应转化为SMILES(Simplified Molecular Input Line Entry System)格式,确保了数据的一致性和可用性。该数据集包含了产品的SMILES表示(prod_smiles)、反应的SMILES表示(rxn_smiles)以及相应的类别标签(class),为化学领域的研究者提供了丰富的数据资源。
特点
该数据集具有以下显著特点:一是数据来源权威,源自USPTO的专利数据库,保证了数据的真实性和可靠性;二是数据量大,包含近五万条训练数据,为模型训练提供了充足的支持;三是数据维度丰富,不仅包含化学物质的SMILES表示,还包含反应的SMILES表示和类别标签,有助于进行多角度的分析和研究。
使用方法
使用Phando/uspto-50k数据集,用户首先需要从HuggingFace的存储库中下载相应的数据文件。之后,用户可以根据自己的需求,利用Python等编程语言,通过HuggingFace提供的datasets库来加载和预处理数据。数据集分为训练集和验证集,用户可以分别对这两个集进行操作,以训练化学相关的机器学习模型,并进行模型验证。数据集的每一行都代表一个样本,包含了所需的所有信息,用户可以方便地进行数据解析和模型构建。
背景与挑战
背景概述
Phando/uspto-50k数据集,诞生于化学信息学领域,旨在为化学家及研究人员提供一种强大的工具,以促进对化学反应的理解。该数据集由Phando团队创建于21世纪初,汇聚了美国专利商标局(USPTO)的50,000个化学反应实例,其核心研究问题是提高化学反应预测的准确性。该数据集自发布以来,对化学合成规划、药物设计等领域的科学研究产生了深远影响,成为相关研究的重要资源。
当前挑战
该数据集在构建过程中面临的挑战主要涉及数据清洗和质量控制。由于USPTO的数据量大且杂乱,确保每个化学反应的准确性是一项艰巨任务。此外,数据集在解决化学反应预测问题的挑战上,包括如何有效提取和利用化学信息,以及如何处理化学反应中的不确定性。研究人员必须开发出能够处理复杂化学结构的模型,并提高对反应条件的理解,以实现精确预测。
常用场景
经典使用场景
在化学信息学领域,Phando/uspto-50k数据集被广泛用于分子性质预测与反应分类研究。该数据集提供了近五万的化合物反应对,其独特的分子与反应SMILES编码使得研究者能够利用机器学习模型深入探索化学反应的内在规律,从而在药物设计、合成规划等研究中发挥重要作用。
衍生相关工作
基于Phando/uspto-50k数据集,学术界涌现了一系列相关研究工作,包括分子性质预测模型、反应机理分析工具以及自动化合成规划系统等。这些工作不仅推动了化学信息学领域的发展,也为相关交叉学科如计算化学、药物化学等提供了重要的研究工具和方法论。
数据集最近研究
最新研究方向
在化学信息学领域,Phando/uspto-50k数据集作为含有化学物质及其反应信息的宝贵资源,近期研究集中于挖掘其中的化学结构-活性关系,以及化学反应预测。该数据集为科研人员提供了深入探索机器学习在药物设计、合成规划以及新材料发现中的应用奠定了基础,对促进药物研发流程的智能化具有重要意义。目前,前沿研究方向涉及使用图神经网络等深度学习技术来提升预测准确性,同时,围绕该数据集的研究也成为了衡量不同算法性能的标准,为化学及相关领域的研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作