Runs N Poses
收藏github2025-02-09 更新2025-02-10 收录
下载链接:
https://github.com/plinder-org/runs-n-poses
下载链接
链接失效反馈官方服务:
资源简介:
蛋白质-配体共折叠预测数据集
Protein-Ligand Co-folding Prediction Dataset
创建时间:
2025-02-03
原始信息汇总
数据集概述:Runs N Poses
数据集简介
Runs N Poses 是一个蛋白质-配体共折叠预测数据集和基准测试。该数据集用于测试蛋白质-配体共折叠方法对于训练集之外系统的泛化能力。这是一个零样本基准测试,前提是你的方法使用结构训练截止日期为2021年9月30日。
数据来源
数据集可在 Zenodo 获取。
数据描述
数据集包括以下文件:
annotations.csv
包含以下列:
system_id:PLINDER系统ID,结合PDB ID、生物装配ID、蛋白质链列表和配体链列表ligand_instance_chain:系统配体定义的配体链IDgroup_key:system_id和ligand_instance_chain的组合entry_pdb_id:系统的PDB IDentry_keywords:PDB条目的关键词ligand_smiles:系统配体的SMILES字符串num_training_systems_with_similar_ccds:具有相似(>0.9 Tanimoto Morgan指纹相似性)CCD代码的训练系统数量cluster:SuCOS-pocket群集IDtarget_system:使用SuCOS-pocket相似性计算的最接近的训练系统PLINDER系统IDtarget_release_date:最接近的训练系统的发布日期num_ligand_chains:系统中的配体链数量num_protein_chains:系统中的蛋白质链数量ligand_is_proper:系统配体是否为适当配体(即不是离子或 artifact,应用于分析)num_proper_ligand_chains:系统中的适当配体链数量(排除离子和artifact)
附加属性:
ligand_num_rot_bonds:系统配体中的可旋转键数量ligand_molecular_weight:系统配体的分子重量ligand_tpsa:系统配体的拓扑极性表面积ligand_num_unique_interactions:系统配体中的独特相互作用数量ligand_num_heavy_atoms:系统配体中的重原子数量ligand_num_rings:系统配体中的环数量ligand_num_pocket_residues:系统配体口袋中的残基数量
此外,还为最接近的训练系统计算了所有PLINDER相似性度量以及以下额外相似性度量:
color和shape:由RDKit的rdShapeAlign.AlignMol函数返回,用于地面真实系统配体姿态和最接近训练系统配体姿态sucos_shape:由SuCOS计算的对齐配体姿态tanimoto:由RDKit的TanimotoSimilarity函数返回的地面真实系统配体和最接近训练系统配体分子的相似度sucos_shape_pocket_qcov:sucos得分和地面真实系统配体姿态与最接近训练系统配体姿态之间的口袋覆盖率乘积shape_pocket_qcov:shape得分和地面真实系统配体姿态与最接近训练系统配体姿态之间的口袋覆盖率乘积color_pocket_qcov:color得分和地面真实系统配体姿态与最接近训练系统配体姿态之间的口袋覆盖率乘积
所有相似性度量范围从0到100。
predictions.tar.gz
包含每个预测方法的CSV文件,列包括:
system_id:系统的PLINDER系统IDligand_instance_chain:系统配体定义的配体链IDligand_is_proper:系统配体是否为适当配体seed:用于预测的种子sample:样本编号ranking_score:预测的排名分数prot_lig_chain_iptm_average、prot_lig_chain_iptm_min、prot_lig_chain_iptm_max:蛋白质与配体链对的平均、最小和最大iPTM分数lig_prot_chain_iptm_average、lig_prot_chain_iptm_min、lig_prot_chain_iptm_max:配体与蛋白质链对的平均、最小和最大iPTM分数model_ligand_chain、model_ligand_ccd_code、model_ligand_smiles:模型配体的链ID、CCD代码和SMILES字符串lddt_pli、rmsd、lddt_lp、bb_rmsd:LDDT-PLI、BiSyRMSD、LDDT-LP和骨架RMSD准确性度量
inputs.json
包含每个系统的序列和SMILES作为预测方法的输入信息。
ground_truth.tar.gz
包含每个PLI系统的文件夹,格式如下:
ligand_files/:系统中的每个配体链的SDF文件receptor.cif:受体结构文件sequences.fasta:受体序列的FASTA文件system.cif:系统(受体+配体)结构文件
msa_files.tar.gz
包含每个系统的MSA文件。
train_similarity_scores.parquet
包含Runs N Poses数据集系统与整个PDB之间的所有计算出的相似性度量。用于获取基于SuCOS-pocket相似性(sucos_shape_pocket_qcov)的最接近的训练系统。
使用说明
figures.ipynb:用于生成论文中图形的代码。input_preparation.ipynb:准备四个基准测试方法的输入的说明。examples/inputs:每种方法的输入文件示例。examples/utils:运行预测和提取准确度度量的示例命令。similarity_scoring.py:计算相似性度量的脚本。
搜集汇总
数据集介绍

构建方式
Runs N' Poses数据集的构建基于蛋白质-配体共折叠预测的原理,旨在评估蛋白质-配体共折叠方法对于训练集之外系统的泛化能力。该数据集的构建采用了一种零样本学习策略,以2021年9月30日为结构训练截止日期,确保了数据集的时效性和挑战性。
特点
该数据集的特点在于,它包含了一系列蛋白质-配体系统,每个系统都经过了详细的注释,包括系统ID、配体链ID、PDB ID、关键词、配体SMILES字符串等。此外,数据集还提供了多种配体和蛋白质链的属性,如可旋转键的数量、分子量、拓扑极性表面积等,以及一系列PLINDER相似性度量指标,为研究人员提供了丰富的信息资源。
使用方法
使用Runs N' Poses数据集时,用户可以从Polaris平台获取机器学习准备好的数据集版本。数据集包含了注释文件、预测文件、输入文件、真实值文件、MSA文件和相似度评分文件等。用户可以依据提供的Jupyter笔记本和示例代码,进行数据的准备、模型预测、准确度评分以及相似度评分的计算,从而评估其蛋白质-配体共折叠预测方法的性能。
背景与挑战
背景概述
Runs N' Poses数据集是一项针对蛋白质-配体共折叠预测的基准测试,其旨在评估蛋白质-配体共折叠方法在面对训练集以外系统的泛化能力。该数据集的创建伴随着一篇预印本论文的发表,研究背景源于蛋白质-配体共折叠领域,关注蛋白质与配体在结合过程中的协同折叠现象。自2021年9月30日后,该数据集作为零样本基准测试,被广泛应用于评估相关方法的预测性能。该数据集由PLINDER系统提供,并在Polaris平台提供机器学习准备版本,对相关领域产生了重要影响。
当前挑战
在蛋白质-配体共折叠预测领域,数据集构建的主要挑战包括:1) 确保数据集中的系统与训练集中的系统存在足够的差异性,以测试方法的泛化能力;2) 选择合适的相似性度量指标,以准确评估预测结构与真实结构之间的相似度;3) 处理蛋白质-配体复合物的多样性和复杂性,包括不同的生物组装、链组合以及配体特性。此外,数据集构建过程中还需解决如何高效计算和存储大量相似性度量数据的问题。
常用场景
经典使用场景
在蛋白质-配体共折叠预测领域,Runs N' Poses数据集提供了一个零样本测试基准,旨在评估蛋白质-配体共折叠方法在面对训练集之外系统时的泛化能力。该数据集的经典使用场景在于,研究者可利用其提供的蛋白质-配体复合结构,进行蛋白质-配体共折叠预测方法的基准测试,以验证其方法的有效性和准确性。
解决学术问题
Runs N' Poses数据集解决了蛋白质-配体共折叠方法在泛化性方面的评估问题。通过提供与训练集不重叠的测试系统,该数据集帮助研究者识别和克服其方法可能存在的过拟合问题,从而推动相关领域的学术研究向前发展。
衍生相关工作
基于Runs N' Poses数据集,已衍生出多项相关工作,包括对蛋白质-配体共折叠预测方法的改进、新型预测算法的开发,以及利用该数据集进行大规模的蛋白质-配体相互作用分析等,进一步扩展了该数据集在学术研究和实际应用中的影响和作用。
以上内容由遇见数据集搜集并总结生成



