chempile-lift

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/chempile-lift

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含多个配置，每个配置具有不同的特征和数据类型，以及训练、测试和验证分割。数据集涉及化学化合物及其性质，如BACE抑制和BBBP通透性。数据包括SMILES字符串、IC50值等信息。每个配置的下载和数据集大小也提供。

创建时间：

2025-05-11

原始信息汇总

数据集概述

数据集基本信息

数据集名称：chempile-lift
数据集地址：https://huggingface.co/datasets/jablonkagroup/chempile-lift

数据集配置

数据集包含多个配置，主要分为以下几类：

BACE相关配置

BACE-completion_0 到 BACE-completion_5
- 特征：
  - text (string)
  - input (string)
  - output (string)
  - answer_choices (sequence: null)
  - correct_output_index (float64)
- 数据分割：
  - train: 1142 个样本
  - test: 118 个样本
  - val: 253 个样本
BACE-instruction_0 到 BACE-instruction_3
- 特征：同上
- 数据分割：
  - train: 1142 个样本
  - test: 118 个样本
  - val: 253 个样本
BACE-raw_data
- 特征：
  - SMILES (string)
  - pIC50 (float64)
  - BACE_inhibition (int64)
  - split (string)
  - index_level_0 (int64)
- 数据分割：
  - train: 1433 个样本
  - test: 32 个样本
  - val: 48 个样本

BBBP相关配置

BBBP-completion_0 到 BBBP-completion_2
- 特征：同BACE-completion
- 数据分割：
  - train: 1963 个样本
  - test: 68 个样本
  - val: 19 个样本
BBBP-instruction_0 到 BBBP-instruction_3
- 特征：同BACE-completion
- 数据分割：
  - train: 1963 个样本
  - test: 68 个样本
  - val: 19 个样本
BBBP-raw_data
- 特征：
  - SMILES (string)
  - p_np (int64)
  - split (string)
  - index_level_0 (int64)
- 数据分割：
  - train: 1413 个样本
  - test: 370 个样本
  - val: 256 个样本

MUV相关配置

MUV_466-completion_0 到 MUV_466-completion_1
- 特征：同BACE-completion
- 数据分割：
  - train: 10414 个样本
  - test: 2199 个样本
  - val: 2228 个样本
MUV_466-instruction_0 到 MUV_466-instruction_2
- 特征：同BACE-completion
- 数据分割：
  - train: 10414 个样本
  - test: 2199 个样本
  - val: 2228 个样本
MUV_466-raw_data
- 特征：
  - SMILES (string)
  - MUV-466 (int64)
  - split (string)
  - index_level_0 (int64)
- 数据分割：
  - train: 10414 个样本
  - test: 2199 个样本
  - val: 2228 个样本
MUV_548-completion_0 到 MUV_548-completion_1
- 特征：同BACE-completion
- 数据分割：
  - train: 10428 个样本
  - test: 2131 个样本
  - val: 2175 个样本
MUV_548-instruction_0 到 MUV_548-instruction_2
- 特征：同BACE-completion
- 数据分割：
  - train: 10428 个样本
  - test: 2131 个样本
  - val: 2175 个样本
MUV_548-raw_data
- 特征：
  - SMILES (string)
  - MUV-548 (int64)
  - split (string)
  - index_level_0 (int64)
- 数据分割：
  - train: 10428 个样本
  - test: 2131 个样本
  - val: 2175 个样本
MUV_600-completion_0 到 MUV_600-completion_1
- 特征：同BACE-completion
- 数据分割：
  - train: 10417 个样本
  - test: 2148 个样本
  - val: 2163 个样本
MUV_600-instruction_0 到 MUV_600-instruction_2
- 特征：同BACE-completion
- 数据分割：
  - train: 10417 个样本
  - test: 2148 个样本
  - val: 2163 个样本
MUV_600-raw_data
- 特征：
  - SMILES (string)
  - MUV-600 (int64)
  - split (string)
  - index_level_0 (int64)
- 数据分割：
  - train: 10417 个样本
  - test: 2148 个样本
  - val: 2163 个样本
MUV_644-completion_0 到 MUV_644-completion_1
- 特征：同BACE-completion
- 数据分割：
  - train: 10162 个样本
  - test: 2238 个样本
  - val: 2223 个样本
MUV_644-instruction_0 到 MUV_644-instruction_2
- 特征：同BACE-completion
- 数据分割：
  - train: 10162 个样本
  - test: 2238 个样本
  - val: 2223 个样本

数据集大小

各配置的下载大小和数据集大小详见原始数据集详情页面。

搜集汇总

数据集介绍

构建方式

在化学信息学领域，chempile-lift数据集的构建采用了多任务学习框架，整合了BACE、BBBP和MUV等多个子数据集。每个子数据集通过标准化流程处理，将化学分子结构（SMILES表示）与生物活性数据（如pIC50值、抑制活性等）进行关联。数据划分严格遵循训练集（70-80%）、验证集（10-15%）和测试集（10-15%）的比例，确保模型评估的可靠性。针对不同任务类型，数据集特别设计了completion和instruction两种格式，前者聚焦分子属性预测，后者强化指令驱动的文本生成能力。

特点

该数据集最显著的特点是覆盖了广泛的药物发现关键指标，包括血脑屏障穿透性（BBBP）、β-分泌酶抑制活性（BACE）以及多种病毒靶点活性（MUV系列）。数据样本量从千级到万级不等，其中MUV子集平均包含约1.5万条记录，BACE和BBBP则分别提供1500-2000条数据。所有分子均采用国际通用的SMILES编码，并附带实验验证的生物活性标签。特别值得注意的是，数据集通过answer_choices字段支持多分类任务，而correct_output_index则为模型输出提供了可量化的评估基准。

使用方法

使用该数据集时，研究人员可根据config_name选择特定子集进行任务定制。对于分子属性预测，建议从raw_data配置加载原始SMILES和活性数据；若需训练文本生成模型，则优先选用instruction或completion配置。数据加载可通过标准HuggingFace数据集接口实现，典型流程包括：指定子集名称、划分训练/验证/测试集、迭代提取text-input-output三元组。评估时应特别注意不同子集的指标差异性，如BACE侧重回归精度而BBBP关注分类准确率。为充分发挥跨任务学习优势，推荐采用多任务联合训练策略。

背景与挑战

背景概述

Chempile-LIFT数据集是一个专注于化学信息学和药物发现领域的数据集，旨在通过提供丰富的化学分子结构和生物活性数据，支持机器学习模型在药物分子设计和筛选中的应用。该数据集由多个子集构成，包括BACE、BBBP、MUV等系列，涵盖了分子抑制活性、血脑屏障穿透性等多种生物活性指标。数据集的设计旨在解决化学信息学中的关键问题，如分子性质预测和活性分类，为药物研发提供高效的计算工具。

当前挑战

Chempile-LIFT数据集面临的挑战主要包括：1) 化学分子数据的复杂性和多样性使得模型在泛化能力上存在挑战；2) 数据集中分子结构的表示（如SMILES字符串）需要高效的编码和解码方法；3) 生物活性数据的稀疏性和不平衡性增加了模型训练的难度；4) 构建过程中需确保数据的准确性和一致性，这对数据清洗和标注提出了较高要求。

常用场景

经典使用场景

在药物发现领域，chempile-lift数据集被广泛应用于分子性质预测和虚拟筛选研究。该数据集通过提供标准化的SMILES分子表示及其对应的生物活性数据，为机器学习模型构建了可靠的训练基准。研究人员可以基于该数据集开发深度学习模型，准确预测化合物对特定靶标的抑制活性，显著加速先导化合物发现流程。

解决学术问题

该数据集有效解决了药物化学中分子活性预测的标准化评估难题。通过整合BACE、BBBP和MUV等多个权威生物活性数据集，为学术界提供了统一的测试平台。其包含的pIC50值和抑制活性标签，使得研究者能够系统性地评估模型在分子表征学习和活性分类任务中的性能，推动了AI辅助药物设计方法学的发展。

衍生相关工作

该数据集催生了多个开创性研究，包括分子图神经网络GCN的改进架构、基于Transformer的SMILES表示学习方法等。在NeurIPS和ICLR等顶级会议上，已有数十篇论文采用该数据集验证新型算法，其中部分成果推动了分子生成模型与强化学习在药物设计中的融合应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集