maykcaldas/smiles-transformers
收藏Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maykcaldas/smiles-transformers
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- en
pretty_name: smiles-transformer-dataset
size_categories:
- 100M<n<1B
dataset_info:
features:
- name: text
dtype: string
- name: formula
dtype: string
- name: NumHDonors
dtype: int64
- name: NumHAcceptors
dtype: int64
- name: MolLogP
dtype: float64
- name: NumHeteroatoms
dtype: int64
- name: RingCount
dtype: int64
- name: NumRotatableBonds
dtype: int64
- name: NumAromaticBonds
dtype: int64
- name: NumAcidGroups
dtype: int64
- name: NumBasicGroups
dtype: int64
- name: Apol
dtype: float64
splits:
- name: train
num_bytes: 136431671689
num_examples: 908086717
- name: test
num_bytes: 7437928022
num_examples: 50487919
- name: validation
num_bytes: 7621324737
num_examples: 50605067
download_size: 34998665406
dataset_size: 151490924448
---
# smiles-transformers dataset
TODO: Add references to the datasets we curated
## dataset features
- name: text
- Molecule SMILES : string
- name: formula
- Molecular formula : string
- name: NumHDonors
- Number of hidrogen bond donors : int
- name: NumHAcceptors
- Number of hidrogen bond acceptors : int
- name: MolLogP
- Wildman-Crippen LogP : float
- name: NumHeteroatoms
- Number of hetero atoms: int
- name: RingCount
- Number of rings : int
- name: NumRotatableBonds
- Number of rotable bonds : int
- name: NumAromaticBonds
- Number of aromatic bonds : int
- name: NumAcidGroups
- Number of acid groups : int
- name: NumBasicGroups
- Number of basic groups : int
- name: Apol
## citation information
许可证:MIT许可证
语言:英语
友好名称:SMILES-Transformer数据集
样本量范围:1亿 < 样本量 < 10亿
数据集信息:
特征:
- 字段名:text,数据类型:字符串,说明:分子简化分子线性输入规范(SMILES)字符串
- 字段名:formula,数据类型:字符串,说明:分子式
- 字段名:NumHDonors,数据类型:64位整数,说明:氢键供体数量
- 字段名:NumHAcceptors,数据类型:64位整数,说明:氢键受体数量
- 字段名:MolLogP,数据类型:64位浮点数,说明:Wildman-Crippen 脂水分配系数
- 字段名:NumHeteroatoms,数据类型:64位整数,说明:杂原子数量
- 字段名:RingCount,数据类型:64位整数,说明:环数量
- 字段名:NumRotatableBonds,数据类型:64位整数,说明:可旋转键数量
- 字段名:NumAromaticBonds,数据类型:64位整数,说明:芳香键数量
- 字段名:NumAcidGroups,数据类型:64位整数,说明:酸性基团数量
- 字段名:NumBasicGroups,数据类型:64位整数,说明:碱性基团数量
- 字段名:Apol,数据类型:64位浮点数,说明:(原文未提供详细说明)
划分集:
- 训练集:字节大小为136431671689,样本数量为908086717
- 测试集:字节大小为7437928022,样本数量为50487919
- 验证集:字节大小为7621324737,样本数量为50605067
下载总大小:34998665406字节
数据集总大小:151490924448字节
# SMILES-Transformer 数据集
待办:添加本整理数据集的引用信息
## 数据集特征
- 字段名:text
- 说明:分子SMILES字符串
- 字段名:formula
- 说明:分子式
- 字段名:NumHDonors
- 说明:氢键供体数量
- 字段名:NumHAcceptors
- 说明:氢键受体数量
- 字段名:MolLogP
- 说明:Wildman-Crippen 对数分配系数
- 字段名:NumHeteroatoms
- 说明:杂原子数量
- 字段名:RingCount
- 说明:环数量
- 字段名:NumRotatableBonds
- 说明:可旋转键数量
- 字段名:NumAromaticBonds
- 说明:芳香键数量
- 字段名:NumAcidGroups
- 说明:酸性基团数量
- 字段名:NumBasicGroups
- 说明:碱性基团数量
- 字段名:Apol
- 说明:(原文未提供详细说明)
## 引用信息
提供机构:
maykcaldas
原始信息汇总
数据集概述
数据集名称
- pretty_name: smiles-transformer-dataset
许可协议
- license: MIT
数据集大小
- size_categories: 100M<n<1B
数据集特征
- text: Molecule SMILES (string)
- formula: Molecular formula (string)
- NumHDonors: Number of hydrogen bond donors (int64)
- NumHAcceptors: Number of hydrogen bond acceptors (int64)
- MolLogP: Wildman-Crippen LogP (float64)
- NumHeteroatoms: Number of hetero atoms (int64)
- RingCount: Number of rings (int64)
- NumRotatableBonds: Number of rotatable bonds (int64)
- NumAromaticBonds: Number of aromatic bonds (int64)
- NumAcidGroups: Number of acid groups (int64)
- NumBasicGroups: Number of basic groups (int64)
- Apol: (float64)
数据集划分
- train:
- num_bytes: 136431671689
- num_examples: 908086717
- test:
- num_bytes: 7437928022
- num_examples: 50487919
- validation:
- num_bytes: 7621324737
- num_examples: 50605067
数据集大小
- download_size: 34998665406
- dataset_size: 151490924448
搜集汇总
数据集介绍

构建方式
在化学信息学领域,maykcaldas/smiles-transformers数据集的构建基于分子结构的SMILES表示法,通过系统地收集和整理大量分子数据,确保了数据集的广泛性和代表性。数据集的构建过程中,不仅包含了分子的SMILES字符串和分子式,还详细记录了分子的物理化学性质,如氢键供体和受体的数量、LogP值、杂原子数量等,这些特征的全面性为后续的分子性质预测和药物设计提供了坚实的基础。
特点
maykcaldas/smiles-transformers数据集的显著特点在于其丰富的分子特征描述和大规模的数据量。数据集不仅涵盖了分子的基本结构信息,还详细记录了分子的多种物理化学性质,如氢键供体和受体的数量、LogP值等,这些特征的全面性使得该数据集在分子性质预测和药物设计领域具有极高的应用价值。此外,数据集的规模庞大,包含超过9亿条训练样本,为深度学习模型的训练提供了充足的数据支持。
使用方法
maykcaldas/smiles-transformers数据集适用于多种化学信息学和药物设计任务。用户可以通过加载数据集中的训练、测试和验证集,利用分子的SMILES表示和详细的物理化学性质特征,训练和评估分子性质预测模型。此外,数据集的丰富特征和大规模数据量也使其成为开发和优化药物设计算法的重要资源。在使用过程中,用户应根据具体任务需求选择合适的特征和数据集分割,以确保模型的性能和泛化能力。
背景与挑战
背景概述
在化学信息学领域,分子结构的表示和分析一直是核心研究课题。maykcaldas/smiles-transformers数据集应运而生,旨在通过SMILES(简化分子线性输入系统)字符串和相关分子属性,推动分子建模和机器学习应用的发展。该数据集由maykcaldas创建,涵盖了超过9亿个分子实例,包括分子公式、氢键供体和受体数量、LogP值、杂原子数量、环数、可旋转键数、芳香键数、酸性和碱性基团数以及Apol值等特征。这些数据为化学和生物信息学领域的研究人员提供了丰富的资源,有助于开发更精确的分子预测模型和药物设计工具。
当前挑战
尽管maykcaldas/smiles-transformers数据集在分子建模领域具有重要意义,但其构建和应用过程中仍面临诸多挑战。首先,数据集的规模庞大,处理和存储这些数据需要高效的计算资源和存储解决方案。其次,SMILES字符串的多样性和复杂性增加了数据预处理的难度,确保数据质量和一致性是一个持续的挑战。此外,如何有效地将这些分子属性与机器学习模型结合,以提高预测精度和模型泛化能力,也是当前研究的重点和难点。
常用场景
经典使用场景
在化学信息学领域,maykcaldas/smiles-transformers数据集的经典使用场景主要集中在分子结构预测与分析。通过该数据集,研究者能够利用SMILES(简化分子线性输入系统)字符串来训练和验证分子性质预测模型。这些模型可以有效地预测分子的物理化学性质,如LogP值、氢键供体和受体的数量,以及分子的其他关键特性。这种应用不仅提升了分子设计的效率,还为新药研发提供了强有力的工具。
实际应用
在实际应用中,maykcaldas/smiles-transformers数据集被广泛用于药物发现和材料科学领域。制药公司利用该数据集训练的模型来筛选潜在的药物候选分子,通过预测其生物活性和毒性,大大缩短了药物研发周期。此外,材料科学家也利用这些模型来设计和优化新型材料的性能,如电池材料和催化剂,从而推动了材料科学的创新和发展。
衍生相关工作
maykcaldas/smiles-transformers数据集的发布催生了众多相关研究工作。例如,基于该数据集的分子性质预测模型已被用于开发新的药物筛选算法,显著提高了药物发现的效率。同时,研究者们还利用该数据集进行分子生成模型的训练,探索如何通过机器学习生成具有特定性质的新分子。这些衍生工作不仅丰富了化学信息学的研究内容,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成



