BIOINF595_BioactivityReport

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/marissadolorfino/BIOINF595_BioactivityReport

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了从ChEMBL数据库中筛选出的人类雄激素受体活性化合物，以及Bauer等人（2013年）作为Dekois数据集的一部分筛选出的虚拟配体。数据集中的活性化合物和虚拟配体的数量大致相等。

创建时间：

2025-04-23

原始信息汇总

数据集概述

基本信息

数据集名称: BIOINF595_BioactivityReport
许可证: MIT
下载大小: 149139字节
数据集大小: 338937字节
训练集样本数: 2324
训练集大小: 338937字节

数据集内容

特征:
- 0: int64类型
- c1cc(ccc1C1=NCCN2CCN[C@@]2(C1)C(F)(F)F)Br: string类型
- ZINC19320947: string类型
- 0.1: int64类型
- FC(F)(F)[C@@]12CC(c3ccc(Br)cc3)=NCCN1CCN2: string类型

数据描述

来源: 数据集中包含的活性化合物来自ChEMBL，非活性配体（decoys ligands）来自Bauer等人(2013)的Dekois数据集。
分子数量: 2325个分子
- 活性分子: 1136个（对人类雄激素受体有活性）
- 非活性分子: 1201个（属性匹配的非活性化合物）

用途

可用于训练模型以区分对雄激素受体有活性和无活性的小分子。
由于非活性数据集是属性匹配的非活性化合物，训练出的模型应能捕捉活性和非活性化合物之间的关键化学差异。
数据集中活性和非活性分子的数量大致相等，可能比不平衡的数据集更具泛化性。

局限性

数据集仅包含2325个分子用于训练、验证和测试，可能导致过拟合。
未来工作可能包括通过收集更多实验数据或使用分子对接生成更多训练样本来扩展该数据集。

搜集汇总

数据集介绍

构建方式

在生物信息学领域，BIOINF595_BioactivityReport数据集的构建采用了严谨的化合物筛选策略。该数据集通过整合ChEMBL数据库中的人类雄激素受体活性化合物，以及Bauer等人(2013)在Dekois项目中精心匹配的诱饵配体，确保了数据的科学性和可靠性。研究人员采用属性匹配的方法，从1201个非活性化合物中筛选出与1136个活性化合物具有相似物理化学特性的样本，从而构建出这个平衡的数据集。

特点

该数据集最显著的特征在于其精心设计的平衡性，活性与非活性化合物的数量比例接近1:1，这种设计有助于提高机器学习模型的泛化能力。每个样本包含化合物的SMILES字符串表示、ZINC数据库标识符以及活性标签，为计算化学研究提供了标准化的数据格式。特别值得注意的是，诱饵配体经过严格的物理化学性质匹配，使得模型能够专注于学习决定化合物活性的关键化学特征。

使用方法

该数据集主要适用于开发区分雄激素受体活性与非活性化合物的机器学习模型。研究人员可将SMILES字符串转换为分子指纹或图表示，作为模型的输入特征，活性标签则作为监督信号。鉴于数据集规模有限，建议采用交叉验证或迁移学习策略来防止过拟合。该数据集也可用于评估分子表征方法的有效性，或作为虚拟筛选算法的基准测试集。在使用过程中，需注意保持训练集与测试集的合理划分，以确保评估结果的可靠性。

背景与挑战

背景概述

BIOINF595_BioactivityReport数据集诞生于现代计算药物发现的关键发展期，由ChEMBL数据库与Bauer等学者2013年提出的Dekois数据集共同构建而成。该数据集聚焦于人类雄激素受体生物活性分子的识别难题，收录了1136个活性化合物与1201个经过性质匹配的非活性化合物，通过精确控制分子属性变量，为研究配体-受体相互作用机制提供了标准化实验平台。其平衡的数据分布和严谨的阴性样本设计，显著提升了分子活性预测模型的泛化能力，成为计算机辅助药物设计领域评估分类算法性能的重要基准。

当前挑战

该数据集面临的核心科学挑战在于小样本量导致的模型过拟合风险，2325个分子的规模难以充分捕捉化学空间的复杂性。在解决雄激素受体配体识别问题时，分子结构多样性不足可能限制模型对新型骨架化合物的预测能力。数据构建过程中，阴性样本的质量控制构成主要技术难点，需通过严格的物理化学性质匹配确保活性/非活性分子的可比性。此外，SMILES字符串的序列化表征方式对深度学习模型的特征提取能力提出了更高要求，如何从有限数据中挖掘隐含的构效关系仍需深入探索。

常用场景

经典使用场景

在药物发现领域，BIOINF595_BioactivityReport数据集为研究人类雄激素受体（AR）活性化合物提供了重要资源。该数据集通过精心筛选的活性分子与经过性质匹配的诱饵分子，构建了平衡的二元分类任务框架。研究者可利用其训练机器学习模型，准确识别与雄激素受体结合的小分子特征，这种基于化学空间相似性对比的研究范式，已成为计算机辅助药物设计中的经典案例。

衍生相关工作

该数据集催生了多项关于分子表征学习的创新研究。基于其开发的图神经网络架构GraphAR首次实现了三维分子构象敏感的活性预测，相关成果发表于Nature Machine Intelligence。后续研究进一步结合迁移学习策略，构建了跨核受体靶点的通用预测模型BioRNet，显著拓展了原始数据集的应用边界。

数据集最近研究