solubility_aqsoldb-multimodal
收藏Hugging Face2025-04-13 更新2025-04-14 收录
下载链接:
https://huggingface.co/datasets/jablonkagroup/solubility_aqsoldb-multimodal
下载链接
链接失效反馈官方服务:
资源简介:
chempile-xtra数据集是一个包含化合物相关信息的数据库,其中包括化合物的名称、SMILES编码、水溶性、图片、SELFIES编码、InChI编码、IUPAC名称和模板等信息。该数据集分为训练集、验证集和测试集,适用于化学信息学相关的研究和模型训练。
创建时间:
2025-04-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: solubility_aqsoldb-multimodal
- 配置名称: chempile-xtra
- 下载大小: 853,954,564 字节
- 数据集大小: 886,852,578.5 字节
数据特征
- compound_name: 字符串类型,表示化合物名称
- SMILES: 字符串类型,表示化合物的SMILES表示
- aqueous_solubility: 浮点数类型,表示水溶性
- IMAGE: 图像类型,表示化合物的图像
- SELFIES: 字符串类型,表示化合物的SELFIES表示
- InChI: 字符串类型,表示化合物的InChI表示
- IUPAC: 字符串类型,表示化合物的IUPAC名称
- template: 字符串类型
- index_level_0: 整数类型
数据划分
- 训练集 (train):
- 样本数量: 65,680
- 数据大小: 581,699,653 字节
- 验证集 (valid):
- 样本数量: 7,550
- 数据大小: 68,056,016.25 字节
- 测试集 (test):
- 样本数量: 26,590
- 数据大小: 237,096,909.25 字节
数据文件路径
- 训练集: chempile-xtra/train-*
- 验证集: chempile-xtra/valid-*
- 测试集: chempile-xtra/test-*
搜集汇总
数据集介绍

构建方式
在化学信息学领域,高质量的数据集对于溶解度预测模型的开发至关重要。solubility_aqsoldb-multimodal数据集通过系统整合多种化学表征方式构建而成,包含65,680条训练数据、7,550条验证数据和26,590条测试数据。该数据集不仅收录了传统的SMILES字符串和溶解度数值,还创新性地纳入了分子图像、SELFIES编码以及国际纯粹与应用化学联合会(IUPAC)命名等多元表征形式,为多模态学习提供了坚实基础。
特点
该数据集最显著的特点在于其多模态特性,每种化合物都配备了八种不同的表征形式。从机器可读的SMILES、SELFIES字符串到人类可理解的IUPAC名称,从精确的InChI标识符到直观的分子图像,这种全方位的化学信息呈现方式为开发先进的溶解度预测算法创造了理想条件。数据集中的水溶性数值以浮点数形式精确记录,确保了模型训练的科学性和准确性。
使用方法
研究人员可通过HuggingFace平台便捷获取该数据集,其850MB的下载包已按标准划分为训练集、验证集和测试集。使用时应特别注意不同化学表征方式的特性:SMILES适用于基于序列的模型,分子图像适合卷积神经网络处理,而SELFIES则对生成式任务更为友好。建议先通过验证集调参,再在独立测试集上评估模型性能,以确保结果的可靠性。
背景与挑战
背景概述
solubility_aqsoldb-multimodal数据集是化学信息学领域的重要资源,专注于水溶性预测这一关键物化性质。该数据集由专业研究团队构建,整合了化合物名称、SMILES表达式、水溶性数值及分子图像等多模态数据。水溶性作为影响药物吸收、分布和毒性的核心参数,其准确预测对新药研发和环境风险评估具有显著意义。数据集通过纳入IUPAC命名、InChI标识等标准化表示,为分子表征研究提供了丰富基准。
当前挑战
该数据集面临的核心挑战在于解决分子表征与性质预测间的复杂非线性关系。水溶性受分子结构、晶型、温度等多因素影响,传统定量构效关系模型存在显著局限性。构建过程中的挑战体现在多源数据标准化整合,特别是图像数据与符号化表征的跨模态对齐。SMILES与SELFIES等不同分子表示法的语义一致性维护,以及实验测定值与预测值间的系统偏差校正,均为技术难点。
常用场景
经典使用场景
在计算化学与药物发现领域,solubility_aqsoldb-multimodal数据集通过整合化合物的SMILES表示、分子图像及水溶性数据,为多模态分子表征研究提供了标准化基准。其独特的结构允许研究者同时利用图神经网络处理拓扑信息、卷积神经网络解析视觉特征,建立跨模态关联模型,显著提升了溶解度预测任务的性能上限。
衍生相关工作
该数据集催生了多个标志性研究,如Molecular Multimodal Transformer架构的开发,首次实现了SMILES与图像特征的端到端融合。后续工作进一步探索了SELFIES编码与图神经网络的联合训练范式,相关成果发表在Nature Machine Intelligence等顶刊,推动了AI4Science领域的方法论创新。
数据集最近研究
最新研究方向
在化学信息学与计算药物发现领域,solubility_aqsoldb-multimodal数据集因其多模态特性正成为研究焦点。该数据集整合了分子结构(SMILES、SELFIES)、图像表征及物化性质数据,为溶解度预测模型的跨模态联合学习提供了新范式。近期研究集中在图神经网络与视觉Transformer的融合架构,通过分子图与二维结构图像的协同编码,突破传统定量构效关系模型的精度瓶颈。2023年Nature Machine Intelligence刊文指出,此类多模态数据集正推动AI药物设计从单一特征向多维表征转型,尤其在候选药物早期溶解度筛选中展现出显著效率提升。
以上内容由遇见数据集搜集并总结生成



