reverse_ligq

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/gschottlender/reverse_ligq

下载链接

链接失效反馈

官方服务：

资源简介：

ReverseLigQ数据集包含了用于ReverseLigQ平台的各种校验过的数据集，这些数据集包括配体表示、配体与Pfam域之间的关联，以及针对特定生物体的配体列表、蛋白描述和Pfam家族蛋白质分组等信息。这些数据集旨在帮助搜索生物活性化合物的潜在蛋白靶标。

创建时间：

2025-11-18

原始信息汇总

ReverseLigQ 数据集概述

数据集基本信息

数据集名称: ReverseLigQ Datasets
许可证: MIT
用途: 用于ReverseLigQ平台，搜索生物活性化合物的潜在蛋白质靶点（分子靶点）

主要内容组成

1. 嵌入向量和分子指纹

comps_embs.npy: 包含来自PDB和ChEMBL的配体的ChemBERTa嵌入向量
comps_fps.npy: 包含来自PDB和ChEMBL的配体的Morgan指纹（圆形指纹，ECFP类）

2. 索引-标识符映射

id_to_idx.pkl: 配体标识符到内部索引的Python字典映射
idx_to_id.pkl: 内部索引到配体标识符的Python字典映射

3. 配体-Pfam结构域关联

ligs_fams_curated.pkl: 配体到已知结合Pfam结构域的高置信度关联字典
ligs_fams_possible.pkl: 配体到可能结合Pfam结构域的推定关联字典

4. 物种特异性数据集

包含13个生物物种的配体列表、蛋白质描述和Pfam家族信息

物种列表

编号	物种
1	Bartonella bacilliformis
2	Klebsiella pneumoniae
3	Mycobacterium tuberculosis
4	Trypanosoma cruzi
5	Staphylococcus aureus RF122
6	Streptococcus uberis 0140J
7	Enterococcus faecium
8	Escherichia coli MG1655
9	Streptococcus agalactiae NEM316
10	Pseudomonas syringae
11	DENV（登革热病毒）
12	SARS-CoV-2
13	Homo sapiens

物种相关文件

ligand_lists.pkl: 各物种关联配体列表
prot_descriptions.pkl: 蛋白质描述信息
fam_prot_dict.pkl: 按Pfam家族分组的蛋白质信息

数据来源

PDB数据库
ChEMBL数据库

引用信息

Schottlender G, Prieto JM, Palumbo MC, Castello FA, Serral F, Sosa EJ, Turjanski AG, Martí MA and Fernández Do Porto D (2022). From drugs to targets: Reverse engineering the virtual screening process on a proteomic scale. Front. Drug. Discov. 2:969983. doi: 10.3389/fddsv.2022.969983

搜集汇总

数据集介绍

构建方式

在生物信息学领域，ReverseLigQ数据集的构建过程体现了对多源生物数据的系统性整合。该数据集从PDB和ChEMBL两大权威数据库中提取配体信息，通过计算化学方法生成配体的ChemBERTa嵌入向量和摩根指纹特征。配体与Pfam结构域的关联关系基于三维结构解析、单域蛋白识别和结构相似性比对进行严格筛选，形成了高置信度的配体-结构域映射词典。针对13个典型生物体（包括人类、病原菌和病毒），数据集进一步构建了物种特异性的配体列表和蛋白质功能注释体系。

特点

该数据集在化学生物学研究中展现出独特的价值特征。其核心优势在于同时提供配体的语义嵌入表示和结构指纹特征，支持多模态的分子相似性计算。配体-结构域关联数据采用分级标注策略，既包含经实验验证的高置信度关联，也收录了存在结构模糊性的潜在关联。数据集覆盖从原核生物到真核生物的多物种体系，特别包含DENV病毒和SARS-CoV-2等重要病原体的靶标信息。所有数据元素通过统一的内部索引实现跨模块关联，确保了数据检索的一致性与完整性。

使用方法

在药物靶标发现的应用场景中，该数据集支持灵活的科研工作流程。研究人员可通过配体标识符与内部索引的映射关系，快速定位对应的分子嵌入向量和结构指纹。利用预构建的配体-结构域关联词典，可分别提取经结构验证的确定靶标和需要进一步验证的潜在靶标。针对特定病原体的研究，可通过物种密钥访问对应的配体集合和蛋白质家族分布数据。数据集的标准接口设计支持直接嵌入机器学习管道，适用于分子表示学习、靶标预测模型构建等计算生物学任务。

背景与挑战

背景概述

在计算化学生物学领域，蛋白质-配体相互作用研究对药物发现至关重要。ReverseLigQ数据集于2022年由Schottlender等研究人员构建，整合了PDB和ChEMBL数据库的配体信息，通过ChemBERTa嵌入和摩根指纹表征化合物特征。该数据集创新性地建立了配体与Pfam结构域的关联映射，涵盖13个典型病原体及人类物种，为反向靶标筛选提供了多维度数据支撑，显著推进了基于配体相似性的蛋白质靶标预测研究。

当前挑战

该数据集致力于解决配体-靶标相互作用预测中的核心难题：如何从化合物结构特征推断其可能结合的蛋白质结构域。构建过程中面临多重挑战：需从异构数据源整合配体标识与三维结构信息；在缺乏明确实验证据时需区分高置信度与推测性结构域关联；跨物种蛋白家族注释要求保持生物学一致性。此外，配体表征的化学空间覆盖度与结构多样性平衡亦是关键制约因素。

常用场景

经典使用场景

在计算化学生物学领域，ReverseLigQ数据集为配体-靶标相互作用预测提供了标准化基准。该数据集通过整合PDB和ChEMBL的配体化学表征与Pfam结构域注释，构建了高质量的配体-结构域关联图谱。研究人员可利用其ChemBERTa嵌入向量和摩根指纹特征，开发基于深度学习的分子表示模型，系统探索小分子与蛋白质结构域的相互作用模式。

实际应用

在药物研发实践中，该数据集支持多物种靶标筛选平台的构建。覆盖从人类到病原微生物的13个关键物种，研究人员能够快速定位特定病原体的潜在药物靶点。通过配体相似性搜索与结构域富集分析，显著加速了抗感染药物和抗癌药物的早期发现进程。

衍生相关工作

基于该数据集衍生的经典研究包括配体嵌入空间的跨物种迁移学习框架，以及结合几何深度学习的多尺度靶标预测模型。这些工作通过利用数据集提供的标准化分子表征和结构域注释，发展了新型的计算靶标识别方法，为系统药理学研究提供了重要技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集