scikit-fingerprints/MoleculeNet_ESOL
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/scikit-fingerprints/MoleculeNet_ESOL
下载链接
链接失效反馈官方服务:
资源简介:
MoleculeNet ESOL数据集是MoleculeNet基准测试的一部分,用于预测水溶性。目标值是经过对数变换的,单位为每升摩尔数的对数(log Mol/L)。数据集包含1128个样本,推荐使用scaffold分割方法,评估指标为均方根误差(RMSE)。
The MoleculeNet ESOL dataset is part of the MoleculeNet benchmark, designed to predict aqueous solubility directly from molecular structure. It contains 1128 samples, with a regression task type. The targets are log-transformed, with units in log mols per litre (log Mol/L). The recommended split is scaffold, and the recommended metric is RMSE. This dataset is relevant to chemistry, biology, and medical fields, suitable for tabular regression and graph machine learning tasks.
提供机构:
scikit-fingerprints
原始信息汇总
MoleculeNet ESOL 数据集概述
基本信息
- 数据集名称: MoleculeNet ESOL
- 任务类别:
- 表格回归
- 图机器学习
- 表格分类
- 标签:
- 化学
- 生物学
- 医学
- 数据集大小: 1K < n < 10K
- 配置:
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: "esol.csv"
任务描述
- 任务: 预测水溶性
- 目标: 对数变换后的溶解度,单位为 log mols per litre (log Mol/L)
数据集特征
- 任务数量: 1
- 任务类型: 回归
- 总样本数: 1128
- 推荐分割方式: scaffold
- 推荐评估指标: RMSE
参考文献
- John S. Delaney, "ESOL: Estimating Aqueous Solubility Directly from Molecular Structure", J. Chem. Inf. Comput. Sci. 2004, 44, 3, 1000–1005
- Wu, Zhenqin, et al., "MoleculeNet: a benchmark for molecular machine learning", Chemical Science 9.2 (2018): 513-530
搜集汇总
数据集介绍

构建方式
MoleculeNet ESOL数据集是MoleculeNet基准测试的一部分,旨在通过分子指纹技术预测水溶性。该数据集的构建基于化学信息学领域的研究成果,通过收集1128个分子的结构数据,并对其水溶性进行对数转换,以log Mol/L为单位进行量化。数据集采用了scaffold splitting策略,以保持数据的一致性和预测任务的可靠性。
特点
MoleculeNet ESOL数据集的特点在于其专注于水溶性的预测任务,属于回归问题。数据集包含单一任务,样本总量为1128个。其推荐的评价指标为均方根误差(RMSE),反映了预测值与实际值之间的偏差。此外,数据集的构建考虑了化学结构的复杂性,适合于表格回归和图形机器学习任务。
使用方法
使用MoleculeNet ESOL数据集时,推荐采用scaffold splitting方法进行数据划分,以保留相似的化学结构在相同的训练或测试集中。数据集可通过scikit-fingerprints库进行访问和处理。用户需关注数据集的回归任务特性,并根据推荐的评价指标进行模型性能的评估。
背景与挑战
背景概述
MoleculeNet ESOL数据集,作为MoleculeNet基准的一部分,是由John S. Delaney在2004年提出的ESOL(Estimated SOLubility)数据集发展而来。该数据集由Zhenqin Wu等人进一步整合入MoleculeNet中,旨在为分子机器学习领域提供一个统一的评测标准。MoleculeNet ESOL数据集的核心研究问题是预测水溶性,其目标值经过对数转换,单位为对每升摩尔(log Mol/L)。该数据集包含1128个样本,广泛应用于化学、生物学和医学领域,对相关领域的研究具有重要的推动作用。
当前挑战
MoleculeNet ESOL数据集在解决水溶性预测问题的过程中,面临着如何准确预测分子特性的挑战。此外,在构建过程中,数据集的构建者需克服数据采集、处理和特征提取等多方面的技术难题,以确保数据质量与适用性。具体挑战包括数据集的多样性与代表性,以及如何平衡模型复杂度与预测精度之间的关系。
常用场景
经典使用场景
在化学与生物学领域,MoleculeNet ESOL数据集被广泛应用于预测分子在水中的溶解度。此数据集通过提供分子的结构和对应的溶解度信息,为科研人员提供了一种评估分子特性的重要工具。经典的使用场景包括通过分子指纹技术进行特征提取,进而利用机器学习模型对溶解度进行回归预测。
衍生相关工作
基于MoleculeNet ESOL数据集,衍生的相关工作涵盖了多种分子特性预测任务,如分子毒性、生物活性等。这些研究进一步拓展了数据集的应用范围,促进了分子机器学习领域的发展,为化学信息学和药物设计领域贡献了重要研究成果。
数据集最近研究
最新研究方向
在化学信息学领域,MoleculeNet ESOL数据集以其对水溶性预测的准确性成为研究的热点。近期研究主要聚焦于深度学习模型在预测分子特性的应用,特别是在提升模型对水溶性的预估能力上取得了显著进展。该数据集不仅为药物设计和分子筛选提供了有力支持,而且在环境科学和生物医学研究中也具有广泛的应用价值,其研究成果为相关领域的发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



