PepADMET-Dataset

github2026-02-26 更新2026-03-07 收录

下载链接：

https://github.com/Chemit797/PepADMET-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PepADMET 是一个全面、经过精心清洗与统一的多肽 ADMET（吸收、分布、代谢、排泄和毒性）数据集集合，专为机器学习和深度学习建模设计。本项目将来自多个公开数据库的异构数据整合为干净、标准化的 CSV 文件，可直接用于预测多肽的溶血性 (Hemolysis)、半衰期 (Half-life) 和膜渗透性 (Permeability: Caco-2, PAMPA, MDCK, RRCK)。

PepADMET is a comprehensive, meticulously curated and unified collection of peptide ADMET (Absorption, Distribution, Metabolism, Excretion, and Toxicity) datasets, specifically designed for machine learning and deep learning modeling. This project integrates heterogeneous data from multiple public databases into clean, standardized CSV files that can be directly used to predict peptide hemolysis, half-life, and membrane permeability (Caco-2, PAMPA, MDCK, RRCK).

创建时间：

2026-02-26

原始信息汇总

PepADMET-Dataset 数据集概述

数据集简介

PepADMET-Dataset 是一个全面、经过精心清洗与统一的多肽 ADMET（吸收、分布、代谢、排泄和毒性）数据集集合，专为机器学习和深度学习建模设计。该数据集整合了来自多个公开数据库的异构数据，用于预测多肽的溶血性、半衰期和膜渗透性。

核心特色

多源数据整合：整合了 HemoPI, APD, peptide-dashboard, PEPlife, THPdb, B3Pdb, CycPeptMPDB 和 PepLand 等多个数据库的数据。
严格标准化：统一了单位（如半衰期全部转换为秒），规范了多肽序列，并统一了二分类标签。
冲突解决机制：针对同一多肽序列在不同数据库中记录不一致的情况，采用了重叠检测和冲突解决策略。
即插即用：最终数据集已被深度清洗，可直接作为特征工程或深度学习模型的输入。

数据集概览

预测性质	任务类型	数据量	预测指标	数据来源
溶血性 (Hemolysis)	二分类	8,825	`0` (非溶血), `1` (溶血)	HemoPI, APD, peptide-dashboard
半衰期 (Half-life)	回归	2,849	数值 (秒)	PEPlife, THPdb, B3Pdb
Caco-2 渗透性	回归	1,006	LogPapp 数值	CycPeptMPDB, PepLand
PAMPA 渗透性	回归	7,283	LogPapp 数值	CycPeptMPDB, PepLand

目录结构

整理/：核心目录，存放所有最终清洗好的数据集。
- hemolysis_unified/hemolysis_unified.csv (溶血数据集)
- half_life_unified/half_life_final_minimal.csv (核心半衰期数据集)
- caco2_out/caco2_unified.csv (Caco-2 模型口服吸收)
- permeability_out/permeability_unified.csv (PAMPA/MDCK 等渗透数据)
process*.py：数据清洗、合并与冲突解决的 Python 源码。
*.md：数据集详细清单、处理流程回顾等说明文档。

搜集汇总

数据集介绍

构建方式

在药物发现领域，多肽类药物的药代动力学与毒性评估至关重要。PepADMET数据集的构建体现了系统化数据整合的严谨性，其过程始于从HemoPI、APD、PEPlife等八个权威公共数据库中广泛收集原始数据。针对数据异构性挑战，研究团队实施了严格的标准化流程，包括将半衰期单位统一转换为秒，对多肽序列进行清洗以去除异常字符，并将分类标签映射为规范格式。尤为关键的是，数据集引入了先进的冲突解决机制，例如在溶血性数据中采用“召回优先”策略，以智能处理不同来源对同一肽序列标注不一致的问题，最终生成可直接用于机器学习模型的洁净CSV文件。

特点

该数据集的核心特点在于其高度的集成性与即用性。它首次将分散于多个独立数据库的多肽ADMET属性数据汇聚于一体，覆盖了溶血性、半衰期及多种膜渗透性指标，形成了涵盖分类与回归任务的统一资源。数据集经过深度清洗与冲突裁决，确保了内部的一致性与可靠性，例如溶血性数据集提供了超过八千条带有明确二元标签的样本。其文件结构设计清晰，在`整理/`目录下提供了最终版本的数据，用户无需进行繁琐的预处理即可将其直接输入预测模型，极大提升了研究效率与可复现性。

使用方法

对于旨在开发多肽性质预测模型的研究者而言，PepADMET数据集提供了便捷的使用路径。用户可直接访问GitHub仓库中`整理/`目录下的对应CSV文件，如`hemolysis_unified.csv`或`half_life_final_minimal.csv`，这些文件已具备标准的特征列与目标变量列。根据具体任务——如二分类预测溶血性或回归预测半衰期——研究者可以灵活提取相应的特征进行模型训练与验证。数据集配套的详细文档与处理脚本亦为高级用户提供了追溯数据来源与理解处理逻辑的透明通道，支持更深入的定制化分析与模型构建。

背景与挑战

背景概述

在药物发现领域，多肽类药物因其高选择性和低毒性而备受关注，但其复杂的药代动力学与毒性特性是研发过程中的关键瓶颈。PepADMET数据集应运而生，作为一个全面、经过精心清洗与统一的多肽ADMET数据集集合，专为机器学习和深度学习建模设计。该数据集整合了来自HemoPI、APD、PEPlife、THPdb等多个公开数据库的异构数据，旨在预测多肽的溶血性、半衰期及膜渗透性等核心性质。通过严格的标准化流程与冲突解决机制，PepADMET为研究人员提供了一个即插即用的高质量数据平台，显著推动了计算药物化学与生物信息学在多肽优化中的应用。

当前挑战

PepADMET数据集致力于解决多肽类药物ADMET性质预测的挑战，其核心在于应对数据的高度异质性与稀疏性。不同来源数据库的测量标准、单位及标签定义存在显著差异，例如半衰期的时间单位与溶血性的判定阈值各不相同，这要求构建过程中实施精细的单位统一与序列清洗策略。此外，同一多肽序列在不同数据库中可能记录相互冲突的数值或分类标签，需设计先进的冲突解决规则，如溶血性数据采用的“召回优先”策略，以确保数据的一致性与可靠性。这些挑战不仅考验数据整合的技术严谨性，也凸显了构建标准化生物信息学资源对加速药物研发的重要性。

常用场景

经典使用场景

在计算生物学与药物发现领域，PepADMET数据集为多肽类药物的ADMET性质预测提供了标准化的基准平台。该数据集最经典的使用场景是作为机器学习与深度学习模型的训练与验证数据，用于构建多肽溶血性、半衰期及膜渗透性的预测模型。研究者通过调用其清洗整合后的CSV文件，能够直接输入序列特征，高效评估多肽的成药潜力，从而加速先导化合物的虚拟筛选与优化流程。

实际应用

在实际应用中，PepADMET数据集直接服务于创新多肽药物的早期研发。制药企业与研究机构可利用其预测模型，快速评估候选多肽的溶血风险、体内稳定性和肠道吸收效率，从而在合成与实验前优先筛选出安全性高、药代动力学性质优异的候选分子。这大幅降低了研发成本与周期，为抗菌肽、抗癌肽等治疗性多肽的转化研究提供了关键工具。

衍生相关工作

基于PepADMET数据集，已衍生出一系列经典的计算研究工作。例如，研究者利用其统一的溶血性数据开发了高性能的二分类预测模型；借助其半衰期回归数据探索了序列特征与代谢稳定性的关联。这些工作不仅验证了数据集的有效性，还进一步拓展了图神经网络、Transformer等先进架构在多肽性质预测中的应用，持续产出高影响力的学术成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集