maomlab/AqSolDB|化学数据集|数据分析数据集
收藏hugging_face2025-08-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maomlab/AqSolDB
下载链接
链接失效反馈资源简介:
AqSolDB是由自主能源材料发现[AMD]研究组创建的数据集,包含了从9个不同的公开可用的水溶性数据集中整理的9,982种独特化合物的水溶性数据。这个公开可访问的数据集是同类中最大的,不仅作为测量溶解度数据的有用参考源,还作为构建数据驱动模型的改进和可推广的训练数据源。数据集提供了化合物的2D描述符,并标准化和验证了化合物表示格式,标记了可靠性标签。
AqSolDB是由自主能源材料发现[AMD]研究组创建的数据集,包含了从9个不同的公开可用的水溶性数据集中整理的9,982种独特化合物的水溶性数据。这个公开可访问的数据集是同类中最大的,不仅作为测量溶解度数据的有用参考源,还作为构建数据驱动模型的改进和可推广的训练数据源。数据集提供了化合物的2D描述符,并标准化和验证了化合物表示格式,标记了可靠性标签。
提供机构:
maomlab
原始信息汇总
Aqueous Solubility Database (AqSolDB)
数据集概述
AqSolDB 是一个包含 9,982 个独特化合物的水溶性值的数据集,这些数据从 9 个不同的公开可用水溶性数据集中整理而来。
数据集信息
- 语言: 英语
- 许可证: MIT
- 来源: 精选
- 任务类别: 表格回归
- 标签: 化学, 化学信息学
- 大小类别: 1K<n<10K
- 配置名称: AqSolDB
数据文件
- 配置: AqSolDB
- 测试集:
- 路径: AqSolDB/test.csv
- 文件大小: 578736 字节
- 样本数量: 2494
- 训练集:
- 路径: AqSolDB/train.csv
- 文件大小: 1737344 字节
- 样本数量: 7488
- 测试集:
数据特征
- ID: 字符串
- Name: 字符串
- InChI: 字符串
- InChIKey: 字符串
- SMILES: 字符串
- Solubility: 浮点数 (float64)
- SD: 浮点数 (float64)
- Ocurrences: 整数 (int64)
- Group: 字符串
- MolWt: 浮点数 (float64)
- MolLogP: 浮点数 (float64)
- MolMR: 浮点数 (float64)
- HeavyAtomCount: 浮点数 (float64)
- NumHAcceptors: 浮点数 (float64)
- NumHDonors: 浮点数 (float64)
- NumHeteroatoms: 浮点数 (float64)
- NumRotatableBonds: 浮点数 (float64)
- NumValenceElectrons: 浮点数 (float64)
- NumAromaticRings: 浮点数 (float64)
- NumSaturatedRings: 浮点数 (float64)
- NumAliphaticRings: 浮点数 (float64)
- RingCount: 浮点数 (float64)
- TPSA: 浮点数 (float64)
- LabuteASA: 浮点数 (float64)
- BalabanJ: 浮点数 (float64)
- BertzCT: 浮点数 (float64)
- ClusterNo: 整数 (int64)
- MolCount: 整数 (int64)
- group: 字符串
引用
@article{ author = {Murat Cihan Sorkun, Abhishek Khetan & Süleyman Er}, title = {AqSolDB, a curated reference set of aqueous solubility and 2D descriptors for a diverse set of compounds}, journal = {Scientific Data}, year = {2019}, volume = {6}, number = {143}, month = {aug}, url = {https://www.nature.com/articles/s41597-019-0151-1}, publisher = {Springer Nature} }
AI搜集汇总
数据集介绍

构建方式
AqSolDB数据集由Autonomous Energy Materials Discovery研究组精心构建,汇集了来自九个公开可用的水溶性数据集的9,982个独特化合物的溶解度数据。通过整合和标准化这些数据,确保了数据的高质量和一致性,为构建数据驱动模型提供了坚实的基础。
特点
AqSolDB数据集不仅规模庞大,涵盖了广泛的化学空间,还提供了丰富的2D描述符,如分子量、LogP值、分子表面积等,这些特征为化学信息学和药物发现领域的研究提供了宝贵的资源。此外,数据集的结构化设计使其易于集成到现有的机器学习框架中,从而加速了模型的开发和验证过程。
使用方法
使用AqSolDB数据集,首先通过Huggingface的datasets库加载数据,然后可以利用MolFlux包进行特征化处理和模型训练。具体步骤包括加载数据集、特征化、数据分割、模型训练和评估。通过这些步骤,研究人员可以快速构建和验证基于水溶性预测的机器学习模型,从而推动化学和药物发现领域的创新。
背景与挑战
背景概述
在化学信息学领域,水溶性数据的准确性和多样性对于药物发现、涂料和电池材料设计等应用至关重要。AqSolDB数据集由Autonomous Energy Materials Discovery (AMD) 研究组于2019年创建,汇集了来自九个公开水溶性数据集的9,982种独特化合物的数据。该数据集不仅为测量水溶性数据提供了宝贵的参考资源,还为构建数据驱动模型提供了更为通用和可推广的训练数据源。AqSolDB的发布填补了现有数据集在化学空间覆盖、测量方法和数据表示标准化方面的不足,极大地推动了水溶性预测模型的发展。
当前挑战
AqSolDB数据集在构建过程中面临多重挑战。首先,整合来自多个数据源的数据需要解决数据格式不一致和测量方法差异的问题。其次,确保数据的可靠性和准确性是关键,这涉及对数据进行严格的筛选和验证。此外,为数据集提供标准化的2D描述符,以便于模型训练和预测,也是一项复杂的工作。最后,如何有效地划分数据集以进行模型训练和测试,确保模型的泛化能力,是另一个重要的挑战。这些挑战共同构成了AqSolDB数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在化学信息学领域,AqSolDB数据集的经典使用场景主要集中在构建和验证水溶性预测模型。通过整合来自九个不同公开数据集的9,982种独特化合物的溶解度数据,该数据集为研究人员提供了一个全面且高质量的基准,用于训练和测试各种机器学习算法。这些模型不仅能够预测新化合物的溶解度,还能为药物发现、材料科学等领域的研究提供关键支持。
解决学术问题
AqSolDB数据集解决了化学领域中长期存在的溶解度预测难题。通过提供一个经过严格筛选和标准化的数据集,它显著提升了数据驱动模型的准确性和可靠性。这不仅有助于减少实验成本和时间,还推动了基于物理和化学原理的模型与数据驱动模型之间的融合,从而在学术界和工业界都产生了深远的影响。
衍生相关工作
AqSolDB数据集的发布催生了大量相关研究工作,特别是在机器学习和化学信息学交叉领域。例如,许多研究团队利用该数据集开发了新的特征提取方法和模型优化技术,进一步提升了溶解度预测的准确性。此外,该数据集还激发了对数据集质量和标准化问题的深入探讨,推动了化学数据科学领域的发展。
以上内容由AI搜集并总结生成
