Geoffkats/signalforge-deepcop
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Geoffkats/signalforge-deepcop
下载链接
链接失效反馈官方服务:
资源简介:
SignalForge/DeepCOP LNCaP数据集是SignalForge翻译分析平台和DeepCOP项目的配套数据。数据集包含LINCS Phase 1和Phase 2化合物的Morgan-2048指纹数据(分别以CSV和RAR格式提供),以及LNCaP DESeq2差异表达结果。这些数据来源于DeepCOP项目(Moo等人,2019年),该项目采用深度学习方法预测小分子对基因的调控作用。数据集适用于生物信息学、基因组学、药物发现和转录组学等领域的研究。
The SignalForge/DeepCOP LNCaP Dataset is companion data for the SignalForge translational analytics platform and the DeepCOP project. It includes LINCS Phase 1 and Phase 2 compound Morgan-2048 fingerprints (provided in both CSV and RAR formats) and LNCaP DESeq2 differential expression results. The data originates from the DeepCOP project (Moo et al., 2019), which employs deep learning approaches to predict gene-regulating effects of small molecules. The dataset is applicable to research in bioinformatics, genomics, drug discovery, and transcriptomics.
提供机构:
Geoffkats
搜集汇总
数据集介绍

构建方式
SignalForge-DeepCOP数据集源自DeepCOP项目及SignalForge转化分析平台,整合了LINCS计划中Phase 1和Phase 2两个阶段的小分子化合物Morgan-2048指纹数据。数据集包含两个核心CSV文件,分别对应两个阶段的化合物指纹信息,以及LNCaP细胞系经DESeq2分析后的差异表达结果。指纹数据通过摩根算法生成2048维二进制特征向量,用于表征化合物的结构信息。此外,数据集还提供了对应的压缩归档文件,便于用户根据需求选择性下载。
特点
该数据集的核心特色在于其专注于基因调控的小分子化合物效应预测任务,属于表格分类类型。数据规模介于10万至100万之间,涵盖多阶段化合物指纹与转录组学数据,依托LINCS项目的权威来源。采用Morgan-2048指纹技术,能够高效编码分子结构信息。数据集与LNCaP细胞系的DESeq2差异表达结果紧密关联,为深度学习模型如DeepCOP在药物发现和基因组学领域的研究提供了基础支撑。
使用方法
用户可通过Hugging Face Hub的`hf_hub_download`函数便捷下载特定文件,例如指定文件名`phase1_compounds_morgan_2048.csv`并设置本地存储目录。数据集的CSV文件可直接使用Python库如pandas加载,用于训练分类模型或特征工程。相关引用文献为Moo等人2019年发表于Bioinformatics的DeepCOP论文,建议在研究中正确引用。对于需要完整数据集的场景,可下载RAR归档文件后解压获取。
背景与挑战
背景概述
SignalForge-DeepCOP数据集由SignalForge翻译分析平台于2022年左右创建,依托于DeepCOP项目及Moo等人2019年发表于《Bioinformatics》的研究成果(PMID: 31504186),核心研究机构包括信号通路计算与药物发现领域的团队。该数据集致力于整合LINCS项目Phase 1和Phase 2中小分子的Morgan-2048指纹特征,以及LNCaP细胞系中DESeq2差异表达分析结果,旨在通过深度学习模型预测小分子对基因调控的影响。其发布填补了转录组学与药物发现交叉领域缺乏标准化化合物指纹-基因表达关联数据的空白,为利用深度学习解析小分子表型效应提供了高价值基准,显著推动了精准医学和计算药物重定位研究的发展。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题层面,小分子结构与基因表达谱之间的非线性映射极为复杂,现有模型难以稳定捕捉多模态特征(如指纹稀疏性与表达数据高维噪声)的深层关联,制约了药物筛选的准确率;2) 构建过程中,数据整合面临LINCS Phase 1与Phase 2之间批次效应校正难题,且LNCaP细胞系的差异表达结果需经严格的统计阈值过滤,防止假阳性干扰;3) Morgan指纹的拓扑表示可能丢失化合物的立体化学信息,影响模型对构效关系的泛化能力,而大规模指纹文件(如Phase 1达159 MB)的存储与处理对计算资源提出较高要求。
常用场景
经典使用场景
SignalForge-DeepCOP数据集作为基因调控与化学生物学交叉领域的宝贵资源,最经典的使用场景莫过于基于化合物结构指纹预测基因表达扰动效应。该数据集整合了LINCS计划的Phase 1和Phase 2化合物摩根指纹信息,以及LNCaP前列腺癌细胞系的DESeq2差异表达分析结果,为构建化合物-基因调控关系的预测模型提供了标准化基准。研究人员常将其用于训练深度学习模型,如DeepCOP框架,以学习小分子结构特征与转录组响应之间的映射关系,从而实现对未知化合物生物效应的快速推断。
实际应用
在实际应用中,SignalForge-DeepCOP数据集为药物研发管线中的早期虚拟筛选环节提供了强有力的数据支撑。制药企业和生物技术机构可借助该数据集训练的模型,快速评估海量候选化合物的潜在基因调控效应,优先筛选出具有期望转录活性的分子,从而减少无效化合物的合成与测试成本。此外,在毒性预测和药物重定位任务中,该数据集亦能助力识别化合物尚未被发现的生物靶点与信号通路扰动,加速新药研发进程。
衍生相关工作
围绕SignalForge-DeepCOP数据集,学术界已衍生出一系列具有影响力的经典工作。DeepCOP项目本身即基于该数据率先提出了深度学习预测小分子基因调控效应的框架。在此基础上,后续研究进一步引入了图神经网络和自注意力机制等技术,以捕捉化合物结构中更为复杂的拓扑信息,提升了预测的准确性。也有学者将该数据集与转录组学知识图谱相结合,探索化合物、基因与疾病之间的多模态关联,催生了药物靶点发现和组合治疗策略设计等前沿方向的研究成果。
以上内容由遇见数据集搜集并总结生成



