PepBDB-ML

github2024-06-28 更新2024-06-29 收录

下载链接：

https://github.com/MurtoHilali/PepBDB-ML

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在从PepBDB数据库生成一个用于机器学习和计算生物学研究的丰富数据集。该数据集通过处理肽-蛋白质相互作用数据，提取序列，并添加各种生物化学特征，创建适合随机森林、XGBoost等进一步分析的表格数据集。每行数据标记为绑定残基（1）或非绑定残基（0）。

This project aims to generate a rich dataset for machine learning and computational biology research from the PepBDB database. By processing peptide-protein interaction data, extracting sequences, and incorporating various biochemical features, this dataset is constructed as a tabular format suitable for further analysis with models such as Random Forest and XGBoost. Each row in the dataset is labeled as either a binding residue (1) or a non-binding residue (0).

创建时间：

2024-06-26

原始信息汇总

PepBDB-ML 数据集生成

概述

该项目旨在从 PepBDB 数据库生成一个用于机器学习和计算生物学研究的增强型数据集。

该脚本处理肽-蛋白质相互作用数据，提取序列，并使用各种生化特征对其进行丰富，创建适合使用随机森林、XGBoost 等进行进一步分析的表格数据集。每行标记为结合残基（1）或非结合残基（0）。

表格数据集 `peppi_data.csv`：

AA	Protein Hydrophobicity	Protein Steric Parameter	Protein Volume	Protein Polarizability	Protein Helix Probability	Protein Beta Probability	Protein Isoelectric Point	Protein HSE Up	Protein HSE Down	Protein Pseudo Angles	Protein ASA	Protein Phi	Protein Psi	Protein SS H	A	R	N	D	C	Q	E	G	H	I	L	K	M	F	P	S	T	W	Y	V	Binding Indices
L	0.6891891891891891	0.9607843137254901	0.8222778473091366	0.6241610738255033	0.6823529411764706	0.7473684210526315	0.40175219023779735	0.3333333333333333	0.42857142857142855	0.8699882132974325	0.4456686291000842	0.23066692000760028	0.0816007154035323	1.0	0.0	0.0	0.0	0.0	0.6666666666666666	0.0	0.0	0.0	0.16666666666666663	0.5555555555555556	1.0	0.0	0.5555555555555556	0.5	0.33333333333333326	0.0	0.0	0.25	0.30000000000000004	0.7142857142857142	0
K	0.518018018018018	0.6666666666666667	0.8610763454317898	0.7348993288590604	0.6941176470588235	0.25263157894736843	0.8723404255319149	0.0	0.5714285714285714	0.8747249797378288	0.7270984020185031	0.19703591107733237	0.09479096803040464	1.0	0.3333333333333333	0.4444444444444444	0.36363636363636365	0.30000000000000004	0.6666666666666666	0.5	0.3333333333333333	0.30000000000000004	0.5	0.2222222222222222	0.5	0.8571428571428571	0.4444444444444444	0.2	1.0	0.8	0.2857142857142857	0.125	0.2	0.42857142857142855	1
D	0.2072072072072072	0.7450980392156863	0.40175219023779735	0.3523489932885906	0.48235294117647065	0.18947368421052624	0.0	0.0	0.49999999999999994	0.6108288105124712	0.7711867992384177	0.1911457343720312	0.1553767046724793	1.0	0.0	0.2222222222222222	0.4545454545454546	1.0	0.0	0.375	0.6666666666666666	0.2	0.5	0.0	0.0	0.42857142857142855	0.0	0.0	0.6666666666666666	0.6000000000000001	0.14285714285714285	0.0	0.09999999999999998	0.14285714285714285	1

图像数据集 `peppi_data_imgs`：

bash peppi_data_imgs ├── binding │ ├── img1.jpg │ ├── img2.jpg │ ├── img3.jpg │ └── ... └── nonbinding ├── img4.jpg ├── img5.jpg ├── img6.jpg └── ...

数据准备过程

加载数据

脚本开始从 PepBDB 数据库加载 peptidelist.txt 文件。列名被重命名以提高可读性和便利性。

初始过滤

脚本过滤掉：

涉及核酸的条目。
分辨率高于 2.5 Å 的模型以保证质量。
短于 10 个氨基酸的肽。

序列提取

使用 BioPython 从 PDB 文件中提取序列。我们还将过滤掉包含非标准氨基酸的序列。

结合残基识别

使用 PRODIGY（默认参数）识别结合残基。

特征提取

使用 AAindex1 进行残基特定特征提取。

数据丰富

添加额外的生化特征，包括 HSE、ASA、DSSP 代码和 PSSM 配置文件。

运行脚本

要运行脚本，只需执行：

bash tar -xzf pepbdb-20200318.tgz python gendata.py

gendata.py 还可以生成类似于 Visual 数据集的图像。要启用此选项，请将 --images 标志设置为 true 并指定结合和非结合图像的完整路径：

bash python gendata.py --images True --binding_path path/to/binding --nonbinding_path path/to/nonbinding

重要提示：请记住使用特定于您系统的路径修改 paths.py。

确保您有必要的输入文件和目录，如脚本中所指定。

注意事项

图像目录 peppi_data_imgs.tgz 和表格数据集 peppi_data.csv.gz 不是 1-1 对应的，CSV 不是图像的标签文件。虽然它们基于相同的数据构建，但它们不包含相同数量的记录。
- peppi_data.csv 中有 811,830 条记录
  - 结合：110,268
  - 非结合：701,562
- peppi_data_imgs 中有 806,129 张图像
  - 结合：109,880
  - 非结合：696,249
这是因为 peppi_data.csv 中的某些行（残基）有 NaN 值。在导出 CSV 之前，这些行单独被删除。然而，相同的错误行/残基可以出现在多张图像中（因为每张图像代表七个连续残基）。为了保持可用性，包含该残基的所有图像都被删除。

搜集汇总

数据集介绍

构建方式

PepBDB-ML数据集的构建始于对PepBDB数据库的处理，旨在生成一个适用于机器学习和计算生物学研究的丰富数据集。首先，通过加载和筛选PepBDB中的peptidelist.txt文件，剔除涉及核酸的条目以及分辨率高于2.5 Å的模型，同时过滤掉短于10个氨基酸的肽段。随后，利用BioPython从PDB文件中提取序列，并使用PRODIGY工具识别绑定残基。进一步，通过AAindex1提取残基特异性特征，并添加HSE、ASA、DSSP代码和PSSM配置文件等生物化学特征。最终，将这些特征整合成一个表格数据集，适用于随机森林、XGBoost等算法的进一步分析。

使用方法

PepBDB-ML数据集的使用方法相对直观。首先，用户需确保系统满足Python 3.7+、blast+、mkdssp、prodigy等必要软件和库的要求。接着，通过运行提供的脚本，用户可以自动加载、筛选、提取和丰富数据，最终生成一个包含丰富特征的表格数据集。该数据集可以直接导入到如随机森林、XGBoost等机器学习模型中进行训练和预测。此外，数据集还支持生成图像数据，用户可以通过设置--images标志为true并指定绑定和非绑定图像的路径，生成可视化数据集，进一步支持图像识别和分类任务。

背景与挑战

背景概述

PepBDB-ML数据集是由Huang实验室于2020年创建的，旨在通过机器学习和计算生物学方法研究肽-蛋白质相互作用。该数据集的核心研究问题是如何通过丰富的生物化学特征来预测肽和蛋白质之间的结合位点。主要研究人员通过处理PepBDB数据库中的肽-蛋白质相互作用数据，提取序列并添加多种生物化学特征，创建了一个适用于随机森林、XGBoost等算法的表格数据集。每行数据被标记为结合残基（1）或非结合残基（0），这对于理解蛋白质结构和功能具有重要意义。

当前挑战

PepBDB-ML数据集在构建过程中面临多个挑战。首先，数据集需要处理大量的肽-蛋白质相互作用数据，这要求高效的序列提取和特征提取方法。其次，数据集需要确保数据的准确性和一致性，特别是在过滤和标记结合残基时。此外，数据集的多样性和复杂性使得特征选择和模型训练变得复杂，需要克服数据噪声和缺失值的问题。最后，数据集的图像部分与表格数据集之间存在不一致性，这增加了数据管理和分析的难度。

常用场景

经典使用场景

PepBDB-ML数据集在计算生物学和机器学习领域中具有广泛的应用。其经典使用场景包括通过提取蛋白质和肽段的序列信息，结合多种生物化学特征，构建用于预测蛋白质-肽段相互作用的模型。这些模型可以应用于随机森林、XGBoost等机器学习算法中，以识别和分类蛋白质中的结合残基和非结合残基。

解决学术问题

PepBDB-ML数据集解决了生物信息学中的一个关键问题，即蛋白质-肽段相互作用的预测。通过整合丰富的生物化学特征和序列信息，该数据集为研究人员提供了一个强大的工具，用于开发和验证预测模型。这不仅有助于理解蛋白质的功能和结构，还为药物设计和蛋白质工程提供了重要的数据支持。

实际应用

在实际应用中，PepBDB-ML数据集被广泛用于药物发现和蛋白质工程领域。例如，研究人员可以利用该数据集预测新药物分子与目标蛋白质的结合位点，从而加速药物筛选过程。此外，该数据集还可用于优化蛋白质设计，通过预测和改进蛋白质的结合特性，提高其功能性和稳定性。

数据集最近研究