five

sagawa/pubchem-10m-canonicalized

收藏
Hugging Face2022-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagawa/pubchem-10m-canonicalized
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: [] language: [] language_creators: - expert-generated license: - apache-2.0 multilinguality: - monolingual pretty_name: canonicalized PubChem-10m size_categories: - 100K<n<1M source_datasets: - original tags: - PubChem - chemical - SMILES task_categories: [] task_ids: [] --- ### dataset description We downloaded PubChem-10m dataset from [here](https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/pubchem_10m.txt.zip) and canonicalized it. We used the following function to canonicalize the data and removed some SMILES that cannot be read by RDKit. ```python: from rdkit import Chem def canonicalize(mol): mol = Chem.MolToSmiles(Chem.MolFromSmiles(mol),True) return mol ``` We randomly split the preprocessed data into train and validation. The ratio is 9 : 1.

annotations_creators: [] language: [] language_creators: - expert-generated license: - apache-2.0 multilinguality: - monolingual pretty_name: canonicalized PubChem-10m size_categories: - 100K<n<1M source_datasets: - original tags: - PubChem - 化学 - SMILES(Simplified Molecular Input Line Entry System) task_categories: [] task_ids: [] ### 数据集说明 我们从指定链接(https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/pubchem_10m.txt.zip)下载PubChem-10m数据集并完成标准化处理。 我们采用如下函数实现数据标准化,并剔除了无法被RDKit读取的SMILES(Simplified Molecular Input Line Entry System)字符串: python: from rdkit import Chem def canonicalize(mol): mol = Chem.MolToSmiles(Chem.MolFromSmiles(mol),True) return mol 我们将预处理完成的数据集按照9:1的比例随机划分为训练集与验证集。
提供机构:
sagawa
原始信息汇总

数据集概述

  • 名称: canonicalized PubChem-10m
  • 语言: 单语种(Monolingual)
  • 语言生成方式: 专家生成(expert-generated)
  • 许可证: Apache-2.0
  • 数据集大小: 100K<n<1M
  • 数据来源: 原始数据(original)
  • 标签:
    • PubChem
    • chemical
    • SMILES
  • 数据处理:
    • 数据从此处下载并进行规范化处理。
    • 使用RDKit工具对数据进行规范化,移除了无法被RDKit读取的SMILES数据。
    • 数据被随机分为训练集和验证集,比例为9:1。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含约1000万条经过规范化的化学分子SMILES字符串,主要用于化学信息学和机器学习研究。数据集已划分为900万条训练数据和100万条验证数据,格式为Parquet,总大小为263MB。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作