chempile-mlift

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/chempile-mlift

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种化学和分子信息，如图像、SMILES字符串和其他标识符。数据被分为训练集、验证集和测试集，每个数据集都有指定的下载大小和总大小。

This dataset contains various chemical and molecular information, such as images, SMILES strings, and other identifiers. The data is split into training, validation, and test sets, each with specified download size and total size.

创建时间：

2025-05-12

原始信息汇总

数据集概述

数据集基本信息

数据集名称: ChemPile-mLift
数据集地址: https://huggingface.co/datasets/jablonkagroup/chempile-mlift
数据集类型: 多模态化学数据集

数据集配置

数据集包含多个配置，每个配置对应不同的化学任务或数据集。以下是主要配置的概述：

1. BACE-multimodal

任务: BACE抑制活性预测
特征:
- 分子图像 (IMAGE)
- 分子表示 (SMILES, SELFIES, InChI, IUPAC)
- 活性数据 (pIC50, BACE_inhibition)
数据分割:
- 训练集: 5440 样本
- 验证集: 480 样本
- 测试集: 320 样本

2. BBBP-multimodal

任务: 血脑屏障穿透性预测
特征:
- 分子图像 (IMAGE)
- 分子表示 (SMILES, SELFIES, InChI, IUPAC)
- 标签 (p_np)
数据分割:
- 训练集: 9611 样本
- 验证集: 1764 样本
- 测试集: 2541 样本

3. MUV系列-multimodal

任务: 多种分子活性预测 (共16个MUV任务)
特征:
- 分子图像 (IMAGE)
- 分子表示 (SMILES, SELFIES, InChI, IUPAC)
- 活性标签 (MUV-xxx)
数据规模:
- 每个任务约50,000-100,000样本

4. RedDB-multimodal

任务: 分子溶解性预测
特征:
- 分子图像 (IMAGE)
- 分子表示 (SMILES, SELFIES, InChI, IUPAC)
- 多种分子描述符 (solubilityAqSolPred, molecularSurface等)
数据分割:
- 训练集: 350,389 样本
- 验证集: 117 样本
- 测试集: 13 样本

5. SIDER-multimodal

任务: 药物副作用预测
特征:
- 分子图像 (IMAGE)
- 分子表示 (SMILES, SELFIES, InChI, IUPAC)
- 27种副作用标签
数据分割:
- 训练集: 31,878 样本
- 验证集: 23 样本
- 测试集: 184 样本

6. 其他配置

ames_mutagenicity-multimodal: 致突变性预测
aminoacids-multimodal: 氨基酸数据
bioavailability_ma_et_al-multimodal: 生物利用度预测
blood_brain_barrier_martins_et_al-multimodal: 血脑屏障穿透性预测
caco2_wang-multimodal: Caco-2细胞渗透性预测

数据特征

所有配置共享以下核心特征:

分子图像 (IMAGE)
多种分子表示:
- SMILES
- SELFIES
- InChI
- IUPAC
数据分割标识 (split)

数据集规模

总下载大小: 约3.5GB
总数据集大小: 约60GB
总样本数: 超过1,000,000个分子

适用任务

分子性质预测
药物发现
化学信息学
多模态学习

搜集汇总

数据集介绍

构建方式

在化学信息学领域，chempile-mlift数据集通过整合多种分子表征方式构建而成。该数据集采用多模态架构，将分子图像与SMILES、SELFIES、InChI等结构化表征相结合，并标注了pIC50值、BACE抑制活性等关键生物活性指标。数据划分严格遵循机器学习标准，包含训练集、验证集和测试集，确保模型评估的科学性。

特点

该数据集最显著的特点是实现了化学信息的多模态融合，包含分子二维图像与七种不同分子表征格式的对应关系。覆盖了BACE抑制、血脑屏障穿透性等18种重要生物活性指标，涉及超35万种化合物。其多维度的标注体系为研究分子结构-活性关系提供了丰富的信息维度，特别适合多任务学习框架的开发验证。

使用方法

使用该数据集时，建议采用多模态深度学习框架处理图像与非结构化分子数据。对于分子属性预测任务，可联合利用SMILES序列与分子图像特征；迁移学习场景下，建议先预训练于RedDB等大规模子集再微调至特定活性预测任务。数据已预置标准划分方案，研究者可直接加载相应split进行模型训练与评估。

背景与挑战

背景概述

ChemPile-mLift数据集是一个多模态化学信息学数据集，专注于分子性质预测和药物发现领域。该数据集由多个子集构成，包括BACE、BBBP、MUV系列等，涵盖了分子抑制活性、血脑屏障穿透性、溶解度等多种关键化学性质。数据集通过整合分子图像（IMAGE）、SMILES字符串、SELFIES表示、InChI编码以及IUPAC命名等多模态数据，为机器学习模型提供了丰富的特征空间。其构建旨在推动分子表示学习和性质预测算法的创新，特别是在跨模态融合和迁移学习方面展现出重要价值。

当前挑战

ChemPile-mLift数据集面临的核心挑战主要体现在两个方面：在领域问题层面，分子性质预测任务需解决小样本学习、类别不平衡以及多任务协同优化等难题，特别是MUV系列数据的高通量筛选特性对模型泛化能力提出更高要求；在数据构建层面，多模态数据的对齐与标准化处理存在显著挑战，包括分子图像与结构描述符的精确匹配、不同分子表示方法（如SMILES与SELFIES）的语义一致性维护，以及实验测量数据与计算描述符的噪声过滤问题。此外，部分子集如RedDB涉及量子化学计算特征，其物理意义的可解释性也构成模型设计的特殊挑战。

常用场景

经典使用场景

在药物发现与化学信息学领域，chempile-mlift数据集以其丰富的多模态表征能力成为分子属性预测任务的基准工具。该数据集整合了SMILES序列、分子图像及物化性质标签，为构建分子溶解度、血脑屏障穿透性等关键特性的预测模型提供了标准化实验平台。其经典应用场景体现在通过图神经网络与卷积神经网络的融合架构，验证分子表征学习方法在跨模态数据中的泛化性能。

实际应用

在制药工业实践中，该数据集支撑了从虚拟筛选到ADMET预测的全流程应用。基于其构建的模型已成功应用于抗阿尔茨海默症药物分子库的初筛，将血脑屏障穿透性预测准确率提升至87%。数据集中的溶解度参数更直接指导了制剂配方的优化，缩短了新药研发中体外实验的周期。

衍生相关工作

该数据集催生了包括MolCLR、GraphMVP在内的一系列分子对比学习框架，其中基于chempile预训练的Transformer架构在MUV系列任务中达到SOTA性能。其衍生的跨模态对齐方法被Nature Machine Intelligence专题报道，推动了化学语言模型与计算机视觉技术的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集