chembl-2025-randomized-smiles-cleaned-explicit-hs

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/fabikru/chembl-2025-randomized-smiles-cleaned-explicit-hs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含化学分子结构的SMILES表示，分为训练集和测试集，适用于分子性质预测等化学信息学任务。

This dataset contains SMILES representations of chemical molecular structures, which is split into a training set and a test set, and is suitable for cheminformatics tasks such as molecular property prediction.

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在药物化学信息学领域，ChEMBL-2025数据集经过系统化处理，采用随机化SMILES序列技术对原始分子结构进行标准化重构，确保每个化合物具有多样化的字符串表示形式。该过程通过算法清洗去除无效或冗余数据，并显式添加氢原子标记以增强结构完整性，最终形成包含228万余训练样本和4.9万测试样本的高质量数据集。

使用方法

研究人员可通过加载标准化数据分割直接开展机器学习实验，训练集适用于构建分子生成或属性预测模型，测试集则用于验证模型泛化性能。基于SMILES序列的输入格式可与主流化学信息学工具链无缝对接，支持端到端的分子表示学习流程，同时显式氢原子标注为三维结构重建等进阶研究提供便利。

背景与挑战

背景概述

在药物发现领域，化学分子结构的标准化表示是计算化学与人工智能交叉研究的核心基础。ChEMBL数据库由欧洲生物信息学研究所于2009年创建，作为全球最大的公开生物活性分子数据库，其2025年版本通过随机化SMILES序列与显式氢原子标记的技术革新，解决了传统线性表示法中结构唯一性问题。该数据集通过标准化分子编码体系，为深度学习模型提供了具有化学等价不变性的训练样本，显著推动了分子性质预测与生成模型在药物设计中的应用深度。

当前挑战

化学分子表示学习面临结构异构体编码一致性的根本挑战，传统SMILES字符串对同一分子可能产生多重线性表达，导致模型训练中的语义歧义。数据集构建过程中需克服三大技术难点：随机化SMILES生成算法需保持化学语义不变性，显式氢原子标记需平衡计算复杂度与空间结构完整性，以及海量生物活性数据清洗时面临的噪声过滤与标准化矛盾。这些挑战直接关系到分子表征模型在虚拟筛选与ADMET性质预测中的泛化能力。

常用场景

经典使用场景

在药物发现领域，该数据集通过随机化SMILES序列并添加显式氢原子，为分子生成与优化任务提供了标准化基准。研究者常利用其训练生成模型，探索化学空间的多样性，从而加速新型候选药物的设计过程。这种处理方式有效提升了模型对分子结构的泛化能力，成为计算化学中不可或缺的工具。

解决学术问题

该数据集主要解决了分子表示学习中数据标准化与增强的难题。通过提供清洁且结构明确的分子序列，它帮助研究者克服传统SMILES表示中的歧义问题，促进了深度学习模型在性质预测与分子生成任务中的性能提升。其显式氢标记机制为精确建模原子级相互作用奠定了坚实基础。

实际应用

在制药工业中，该数据集被广泛应用于虚拟筛选与先导化合物优化流程。企业通过训练定制化模型，快速生成具有特定生物活性的分子库，显著降低实验筛选成本。此外，在环境化学领域，该数据还可用于预测污染物降解路径，为绿色化学设计提供数据支撑。

数据集最近研究