zpn/delaney
收藏Hugging Face2022-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zpn/delaney
下载链接
链接失效反馈官方服务:
资源简介:
delaney数据集是MoleculeNet的一部分,专注于提供有机小分子的水溶性数据(以每升摩尔数的对数形式表示的溶解度)。该数据集包含分子的SMILES和SELFIES表示,以及溶解度目标值。数据集采用80/10/10的训练/验证/测试分割,使用支架分割方法。
The Delaney dataset, a component of MoleculeNet, focuses on providing aqueous solubility data for small organic molecules, with solubility expressed as the logarithm of moles per liter. This dataset includes SMILES and SELFIES representations of molecules, along with the corresponding solubility target values. It adopts an 80/10/10 train/validation/test split using the scaffold splitting methodology.
提供机构:
zpn
原始信息汇总
数据集概述
数据集名称
- 名称: delaney (又名 ESOL)
数据集描述
- 概述: 该数据集包含常见有机小分子的水溶性数据(以每升摩尔数表示的溶解度对数)。
- 所属项目: 属于MoleculeNet项目。
数据集结构
- 数据字段:
smiles: 分子的SMILES表示。selfies: 分子的SELFIES表示。target: 每升摩尔数的溶解度对数。
- 数据分割: 采用80/10/10的训练/验证/测试分割,使用scaffold split方法。
数据集创建
- 数据来源: 最初由斯坦福大学的Pande Group生成。
- 许可证: MIT许可证。
数据集使用
- 贡献者: 感谢@zanussbaum添加此数据集。
引用信息
@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} }
搜集汇总
数据集介绍

构建方式
该数据集delaney,亦称ESOL,隶属于MoleculeNet项目,其构建基于对有机小分子水溶性的实验数据。数据通过斯坦福大学Pande小组生成,包含分子的SMILES和SELFIES两种表示形式,以及对应的溶解度目标值,采用80/10/10的训练集、验证集和测试集划分方式,确保了数据集的多样性与可用性。
特点
delaney数据集的特点在于其专注于有机小分子的水溶性数据,数据规模虽小,但涵盖了丰富的化学信息,采用MIT许可证开源,便于学术与工业界的广泛应用。其数据字段包括SMILES和SELFIES表示,使得研究者在分子表示的学习上有更多的选择,同时也提供了溶解度目标值,为预测模型的建立提供了基准。
使用方法
使用delaney数据集时,研究者可以依据其提供的SMILES或SELFIES表示以及溶解度目标值,进行机器学习模型的训练与验证。数据集的MIT许可授权确保了数据的自由使用与分享,用户在使用数据集时应遵循相应的许可协议,并在成果中引用数据集来源,以尊重数据贡献者的权益。
背景与挑战
背景概述
在生物化学与分子建模领域,`delaney` 数据集,亦称为 `ESOL`,是一项重要的研究成果。该数据集由斯坦福大学的Pande Group团队于2017年创建,旨在为有机小分子的水溶性提供实验数据。`delaney` 数据集是MoleculeNet项目的一部分,该项目的目标是构建一个分子机器学习的基准测试。数据集涵盖了常见有机小分子的水溶性数据,以log solubility in mols per litre表示,对机器学习在生物化学领域的应用产生了深远影响。
当前挑战
尽管 `delaney` 数据集为相关研究提供了宝贵的资源,但在构建过程中也面临了诸多挑战。首先,数据集的构建需要精确的化学信息与有效的数据清洗,确保数据的质量与一致性。其次,数据集的规模相对较小(小于1000个样本),这在一定程度上限制了其在机器学习模型训练中的泛化能力。此外,如何将SMILES与SELFIES这两种分子表示形式有效地转化为机器学习模型可利用的特征,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
在科学研究的领域内,特别是在分子建模与生物化学研究中,delaney数据集被广泛用于评估和预测有机小分子在水中的溶解度。该数据集提供了分子与其水溶性之间的映射,使得研究者在设计新分子时,能通过数据驱动的方式预测其水溶性。
实际应用
在药物开发领域,该数据集的实际应用场景包括预测候选药物分子的水溶性,从而评估其在体内的吸收和分布特性,这对于药物设计和优化具有重要意义。此外,它也被应用于环境科学领域,评估化学物质的环境影响。
衍生相关工作
基于delaney数据集,研究者们衍生出了一系列相关工作,包括开发新的分子水溶性预测模型,改进机器学习算法在化学领域的应用,以及扩展数据集以包含更多种类的分子和其物理化学性质。这些工作进一步推动了分子水平的计算化学与机器学习研究。
以上内容由遇见数据集搜集并总结生成



