PLBA

Hugging Face2025-05-03 更新2025-05-04 收录

下载链接：

https://huggingface.co/datasets/Bindwell/PLBA

下载链接

链接失效反馈

官方服务：

资源简介：

Binding Affinity数据集是一个包含蛋白质-配体结合亲和力的综合数据集，包含了来自Glaser, PDBBind 2020, PDBBind 2013, TDC等数据源的数据。数据集分为多个部分，每个部分对应不同的数据来源或处理方式，如训练集使用Glaser数据集，验证集使用PDBBind 2013 Core数据集。数据集的列包括蛋白质序列、配体的标准SMILES表示、结合亲和力等。

The Binding Affinity dataset is a comprehensive collection of protein-ligand binding affinity data, sourced from multiple datasets including Glaser, PDBBind 2020, PDBBind 2013, and TDC. The dataset is split into multiple subsets, each corresponding to a specific data source or processing method. For example, the training set employs the Glaser dataset, while the validation set uses the PDBBind 2013 Core dataset. The dataset contains columns such as protein sequences, standard SMILES representations of ligands, and binding affinity values.

创建时间：

2025-04-25

原始信息汇总

数据集概述

基本信息

名称: Binding Affinity
许可证: MIT
标签: binding-affinity, biology, chemistry
数据集结构: 包含多个分割文件，每个文件对应不同的数据源

数据集分割

train: glaser.parquet
val: pdbbind-2013-core.parquet
davis: davis.parquet
davis_filtered: davis-filtered.parquet
kiba: kiba.parquet
pdbbind_2020_general: pdbbind-2020-general.parquet
pdbbind_2020_general_equal_only: pdbbind-2020-general-equal-only.parquet
pdbbind_2020_general_ic50: pdbbind-2020-general-ic50.parquet
pdbbind_2020_general_ic50_equal_only: pdbbind-2020-general-ic50-equal-only.parquet
pdbbind_2020_general_ki: pdbbind-2020-general-ki.parquet
pdbbind_2020_general_ki_equal_only: pdbbind-2020-general-ki-equal-only.parquet
pdbbind_2020_general_kd: pdbbind-2020-general-kd.parquet
pdbbind_2020_general_kd_equal_only: pdbbind-2020-general-kd-equal-only.parquet
pdbbind_2020_refined: pdbbind-2020-refined.parquet
pdbbind_2020_refined_ki: pdbbind-2020-refined-ki.parquet
pdbbind_2020_refined_kd: pdbbind-2020-refined-kd.parquet
pdbbind_2013_core: pdbbind-2013-core.parquet
bindingdb_ic50: bindingdb-ic50.parquet
bindingdb_ki: bindingdb-ki.parquet
bindingdb_kd_filtered: bindingdb-kd-filtered.parquet
bindingdb_kd: bindingdb-kd.parquet
glaser: glaser.parquet

数据来源

数据集	来源	备注
bindingdb_ic50.parquet	TDC Python Package	Therapeutic Data Commons
bindingdb_kd.parquet	TDC Python Package	Therapeutic Data Commons
bindingdb_kd_filtered.parquet	Manually Filtered	参见 `standardize_data.ipynb`
bindingdb_ki.parquet	TDC Python Package	Therapeutic Data Commons
davis.parquet	TDC Python Package	Therapeutic Data Commons
davis_filtered.parquet	Kaggle Dataset	Filtered Davis dataset
kiba.parquet	TDC Python Package	Therapeutic Data Commons
pdbbind_2020_general.parquet	PDBBind	General PDBBind 2020 dataset
pdbbind_2020_refined.parquet	PDBBind	Refined PDBBind 2020 dataset
pdbbind_2013_core.parquet	PDBBind	Core PDBBind 2013 dataset
glaser.parquet	HuggingFace Dataset	Glaser binding affinity dataset

数据集列信息

列名	描述
`seq`	蛋白质序列
`smiles_can`	配体的规范SMILES表示
`affinity_uM`	以微摩尔（µM）浓度表示的结合亲和力
`neg_log10_affinityM`	以摩尔浓度表示的亲和力的负对数（以10为底）
`affinity_norm`	归一化的结合亲和力
`affinity_mean`	重复蛋白-配体对的平均结合亲和力
`affinity_std`	重复蛋白-配体对的结合亲和力的标准差

搜集汇总

数据集介绍

构建方式

在生物分子相互作用研究领域，PLBA数据集通过系统整合多源实验数据构建而成。该数据集以Glaser数据集作为训练集，PDBBind 2013核心集作为验证集，同时囊括了Davis、KIBA以及PDBBind 2020等权威数据库的精选数据。数据标准化过程采用Therapeutic Data Commons平台的处理流程，并辅以人工筛选机制确保质量，最终形成包含蛋白质序列、配体SMILES编码及多种亲和力指标的标准化parquet格式文件。

特点

该数据集最显著的特征在于其多维度表征体系，不仅包含原始亲和力值（µM浓度），还提供经对数转换的负对数亲和力指标（neg_log10_affinityM）以及标准化处理后的衍生变量。各子集针对不同研究需求设计，如PDBBind 2020细分为general与refined版本，BindingDB则按IC50、Ki、Kd等不同亲和力测量类型分类，为药物发现领域的机器学习模型开发提供了丰富的特征空间和基准测试场景。

使用方法

研究人员可通过HuggingFace平台直接加载特定子集进行模型训练与验证，如使用glaser.parquet作为训练基准，pdbbind-2013-core.parquet进行验证。数据集中的标准化SMILES编码（smiles_can）与蛋白质序列（seq）可直接用于分子表征学习，而多尺度亲和力指标（affinity_uM与neg_log10_affinityM）则为回归任务提供灵活的目标变量选择。针对不同研究目标，可选用filtered版本消除数据噪声，或通过特定测量类型的子集（如ic50/ki/kd）开展专项研究。

背景与挑战

背景概述

PLBA数据集作为蛋白质-配体结合亲和力研究领域的重要资源，由多个权威数据源整合而成，包括PDBBind、Therapeutic Data Commons等。该数据集由国际研究团队构建，旨在为计算生物学和药物发现提供高质量的基准数据。其核心研究问题聚焦于准确预测分子间相互作用强度，这对于理解生物分子识别机制和加速药物设计流程具有关键意义。数据集通过整合2013至2020年间多个版本的PDBBind数据以及Davis、KIBA等经典数据集，为机器学习模型提供了丰富的训练和验证素材，显著推动了计算机辅助药物设计领域的发展。

当前挑战

该数据集面临的主要挑战体现在两个维度：在科学问题层面，蛋白质-配体结合亲和力的精确预测涉及复杂的分子相互作用机制，需要克服现有计算方法在精度和泛化能力上的局限；在数据构建层面，不同来源数据的标准化处理极具挑战性，包括单位统一（如µM到M的转换）、异常值过滤以及重复样本处理等问题。特别是各子数据集采用的实验测量方法差异导致的数据异质性，对模型的鲁棒性提出了更高要求。此外，如何有效整合结构信息（如蛋白质序列与配体SMILES）与数值特征（如亲和力值）也是建模过程中的关键难点。

常用场景

经典使用场景

在计算生物学和药物发现领域，PLBA数据集作为蛋白质-配体结合亲和力的基准数据集，广泛应用于机器学习模型的训练与评估。该数据集整合了来自PDBBind、BindingDB等多个权威来源的结合亲和力数据，为研究人员提供了丰富的实验数据支持。通过分析不同蛋白质序列与配体分子的相互作用，该数据集能够有效支撑虚拟筛选、分子对接等关键任务的算法开发。

实际应用

制药工业中，PLBA数据集被用于加速先导化合物优化流程。通过训练基于该数据集的预测模型，研究人员能够快速评估数百万个分子与靶标蛋白的结合潜力，大幅降低湿实验成本。在抗病毒药物研发案例中，该数据集支撑的模型成功预测了SARS-CoV-2主蛋白酶抑制剂的结合模式，为后续实验验证提供了重要参考。

衍生相关工作

围绕PLBA数据集已衍生出多项开创性研究，包括GraphDTA等基于图神经网络的亲和力预测框架。这些工作通过创新性地处理蛋白质序列和SMILES分子表示，在KIBA和Davis等子集上实现了最先进的预测精度。此外，该数据集还促进了多任务学习在药物发现中的应用，如MoleculeNet等基准平台均将其纳入核心评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集