msb-roshan/1625_aa
收藏Hugging Face2023-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/msb-roshan/1625_aa
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: cleavage
dtype: int64
- name: SMILES
dtype: string
splits:
- name: random_0_train
num_bytes: 218650
num_examples: 1300
- name: random_0_val
num_bytes: 27241
num_examples: 163
- name: random_0_test
num_bytes: 27216
num_examples: 162
- name: random_1_train
num_bytes: 218571
num_examples: 1300
- name: random_1_val
num_bytes: 27267
num_examples: 163
- name: random_1_test
num_bytes: 27269
num_examples: 162
- name: random_2_train
num_bytes: 218750
num_examples: 1300
- name: random_2_val
num_bytes: 27063
num_examples: 163
- name: random_2_test
num_bytes: 27294
num_examples: 162
- name: random_3_train
num_bytes: 218343
num_examples: 1300
- name: random_3_val
num_bytes: 27564
num_examples: 163
- name: random_3_test
num_bytes: 27200
num_examples: 162
- name: random_4_train
num_bytes: 218611
num_examples: 1300
- name: random_4_val
num_bytes: 27260
num_examples: 163
- name: random_4_test
num_bytes: 27236
num_examples: 162
- name: scaffold_0_train
num_bytes: 216827
num_examples: 1300
- name: scaffold_0_val
num_bytes: 28080
num_examples: 162
- name: scaffold_0_test
num_bytes: 28200
num_examples: 163
- name: scaffold_1_train
num_bytes: 216786
num_examples: 1300
- name: scaffold_1_val
num_bytes: 27930
num_examples: 162
- name: scaffold_1_test
num_bytes: 28391
num_examples: 163
- name: scaffold_2_train
num_bytes: 217248
num_examples: 1300
- name: scaffold_2_val
num_bytes: 27869
num_examples: 162
- name: scaffold_2_test
num_bytes: 27990
num_examples: 163
- name: scaffold_3_train
num_bytes: 216865
num_examples: 1300
- name: scaffold_3_val
num_bytes: 27964
num_examples: 162
- name: scaffold_3_test
num_bytes: 28278
num_examples: 163
- name: scaffold_4_train
num_bytes: 217085
num_examples: 1300
- name: scaffold_4_val
num_bytes: 28226
num_examples: 162
- name: scaffold_4_test
num_bytes: 27796
num_examples: 163
download_size: 709895
dataset_size: 2731070
---
# Dataset Card for "1625_aa"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
msb-roshan
原始信息汇总
数据集概述
数据集名称
"1625_aa"
数据集大小
- 下载大小: 709895字节
- 数据集大小: 2731070字节
数据集特征
- cleavage: 数据类型为int64
- SMILES: 数据类型为string
数据集分割
数据集被分割为多个部分,每个部分包括训练集、验证集和测试集。以下是部分分割的详细信息:
随机分割
- random_0_train: 1300个样本,218650字节
- random_0_val: 163个样本,27241字节
- random_0_test: 162个样本,27216字节
- random_1_train: 1300个样本,218571字节
- random_1_val: 163个样本,27267字节
- random_1_test: 162个样本,27269字节
- random_2_train: 1300个样本,218750字节
- random_2_val: 163个样本,27063字节
- random_2_test: 162个样本,27294字节
- random_3_train: 1300个样本,218343字节
- random_3_val: 163个样本,27564字节
- random_3_test: 162个样本,27200字节
- random_4_train: 1300个样本,218611字节
- random_4_val: 163个样本,27260字节
- random_4_test: 162个样本,27236字节
支架分割
- scaffold_0_train: 1300个样本,216827字节
- scaffold_0_val: 162个样本,28080字节
- scaffold_0_test: 163个样本,28200字节
- scaffold_1_train: 1300个样本,216786字节
- scaffold_1_val: 162个样本,27930字节
- scaffold_1_test: 163个样本,28391字节
- scaffold_2_train: 1300个样本,217248字节
- scaffold_2_val: 162个样本,27869字节
- scaffold_2_test: 163个样本,27990字节
- scaffold_3_train: 1300个样本,216865字节
- scaffold_3_val: 162个样本,27964字节
- scaffold_3_test: 163个样本,28278字节
- scaffold_4_train: 1300个样本,217085字节
- scaffold_4_val: 162个样本,28226字节
- scaffold_4_test: 163个样本,27796字节
搜集汇总
数据集介绍

构建方式
在化学信息学与分子性质预测领域,高质量的数据集是模型训练与评估的基石。该数据集以SMILES(简化分子线性输入规范)字符串形式存储分子结构,并附带cleavage(裂解)标签作为目标变量,旨在支持分子裂解性质的预测任务。数据集构建过程中,通过随机划分与基于分子骨架的scaffold划分两种策略,生成了五折交叉验证所需的训练集、验证集与测试集。每一折均包含约1300个训练样本、163个验证样本及162个测试样本,确保了数据划分的多样性与鲁棒性。
特点
该数据集的核心特点在于其双重划分策略与平衡的样本分布。随机划分保留了数据的随机性,适用于评估模型在独立同分布场景下的泛化能力;而scaffold划分则基于分子骨架的相似性进行分割,模拟了更贴近真实药物发现场景的分布外预测挑战。每一折的样本量均保持一致,避免了数据不平衡带来的偏差。此外,数据集仅包含两个核心字段——SMILES与cleavage,结构简洁,便于快速加载与预处理。
使用方法
该数据集可直接通过HuggingFace Datasets库加载使用,用户可通过指定split参数选择特定的划分与折数。例如,加载random_0_train或scaffold_0_test等子集。对于分类任务,cleavage字段可作为标签进行监督学习;SMILES字符串则可通过分子指纹或图神经网络等特征提取方法转换为模型输入。建议用户根据研究目标选择合适的划分策略,并利用五折交叉验证进行模型性能的稳健评估。
背景与挑战
背景概述
在计算化学与药物发现领域,分子裂解位点的精准预测是酶催化反应机理研究及生物转化路径设计的关键环节。该数据集由msb-roshan团队于近年构建,旨在通过SMILES分子表示与cleavage标签的配对数据,为机器学习模型提供裂解位点预测的训练基准。数据集包含1300个训练样本及对应的验证与测试集,并采用随机划分与骨架划分两种策略生成五折交叉验证子集,以评估模型在不同分子结构分布下的泛化能力。其核心研究问题聚焦于如何从分子拓扑特征中学习裂解模式,从而推动酶底物特异性预测及合成生物学中的逆合成分析。该数据集的出现,为小样本分子属性预测任务提供了标准化评测平台,对计算酶学与分子智能设计领域具有重要参考价值。
当前挑战
当前数据集面临的核心挑战可从两个维度解析。在领域问题层面,分子裂解位点预测本质上是一个高度不平衡的分类问题,真实裂解位点数量远少于非裂解位点,且裂解模式受酶种类、反应条件等多因素影响,单一SMILES表征难以捕捉完整的化学环境信息。在数据构建层面,数据集规模有限(仅1625条样本),且缺乏对裂解反应类型的细粒度标注,可能导致模型对稀有裂解模式的学习能力不足。此外,骨架划分与随机划分子集间的性能差异揭示了分子结构多样性对模型泛化的显著影响,如何设计更具鲁棒性的特征表示与数据增强策略,成为突破当前预测瓶颈的关键所在。
常用场景
经典使用场景
在化学信息学与药物发现领域,msb-roshan/1625_aa数据集因其包含分子SMILES表示与对应的裂解位点(cleavage)标签,成为构建预测分子裂解模式的深度学习模型的经典基准。研究者常利用该数据集训练图神经网络或序列模型,通过分子结构特征学习裂解倾向性,从而揭示化学键断裂的潜在规律。该数据集精心划分了随机与支架两种分裂策略下的训练、验证与测试子集,使得模型评估更具稳健性与泛化性,尤其适用于验证模型在分子骨架多样性条件下的预测能力。
解决学术问题
该数据集的核心学术价值在于解决了分子裂解位点预测这一关键但数据稀缺的问题。裂解位点的准确识别对于理解化学反应机理、代谢途径以及药物分子稳定性至关重要。通过提供标准化、多分割的标注样本,该数据集使研究者能够系统性地比较不同算法在分子图结构上的学习效果,推动了图神经网络与注意力机制在化学键预测领域的应用。其影响在于为计算化学提供了可复现的评估基准,加速了从分子结构到反应活性映射的建模进程。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于消息传递神经网络(MPNN)的裂解位点预测模型、融合分子指纹与注意力机制的混合架构,以及利用对比学习增强分子表示鲁棒性的方法。研究者还将其作为基准,开发了可解释性分析工具,用以可视化模型关注的分子子结构。这些工作不仅深化了对分子裂解行为的理解,还推动了化学信息学中数据驱动范式的发展,形成了从数据集到模型再到应用的研究闭环。
以上内容由遇见数据集搜集并总结生成



