benchang323/protein-stability-prediction

Name: benchang323/protein-stability-prediction
Creator: benchang323
Published: 2024-05-15 04:12:35
License: 暂无描述

Hugging Face2024-05-15 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/benchang323/protein-stability-prediction

下载链接

链接失效反馈

官方服务：

资源简介：

蛋白质稳定性预测数据集（PSPD）是一个精心策划的蛋白质序列及其对应的稳定性测量值的集合，特别是突变后的吉布斯自由能变化（ΔG）。该数据集旨在促进计算模型的开发和评估，以预测突变对蛋白质稳定性的影响，数据来源于现有文献。数据集包含蛋白质的氨基酸序列、突变相关的吉布斯自由能变化（ΔG）以及用于分类任务的分箱ΔG值。数据集从现有文献中的多个蛋白质稳定性数据源中整理，确保蛋白质和突变的多样性和代表性。

提供机构：

benchang323

原始信息汇总

ESMnrg: Protein Stability Prediction Dataset

数据集概述

数据集名称

名称: Protein Stability Prediction Dataset (PSPD)

数据集内容

描述: PSPD是一个精选的蛋白质序列及其对应稳定性测量（突变引起的吉布斯自由能变化ΔG）的数据集。该数据集旨在促进开发和评估预测突变对蛋白质稳定性影响的计算模型。
关键信息:
- 蛋白质的氨基酸序列
- 突变相关的吉布斯自由能变化（ΔG）
- 用于分类任务的ΔG值分箱

数据格式

格式: CSV
列信息:
- aa_seq: 蛋白质的氨基酸序列
- deltaG: 突变引起的吉布斯自由能变化（ΔG）
- deltaG_bin: 用于分类任务的ΔG值分箱

数据准备

预处理步骤:
1. 清洗: 移除空值、重复、不完整或错误条目。
2. 提取: 提取相关信息（氨基酸序列、ΔG值、分箱ΔG值）。
3. 标准化: 验证并调整定量输入以符合标准单位和尺度。
4. 增强: 增强数据集以解决能量值分布不平衡的问题。

应用领域

应用:
- 开发和基准测试预测蛋白质突变稳定性变化的机器学习模型
- 研究蛋白质序列与稳定性之间的关系
- 指导理性蛋白质设计和突变研究

许可协议

许可: MIT许可
使用条款: 使用此数据集需遵守MIT许可的条款和条件。

搜集汇总

数据集介绍

构建方式

在蛋白质工程与计算生物学领域，构建高质量数据集是推动模型发展的基石。该数据集通过系统整合现有文献中的蛋白质稳定性数据，精心筛选并汇集了蛋白质序列及其对应的吉布斯自由能变化（ΔG）测量值。数据构建过程涵盖了严格的清洗步骤，剔除了空值、重复及不完整条目，同时提取关键信息如氨基酸序列与ΔG值，并进行了归一化处理以统一量纲。此外，针对能量值分布不均衡的问题，数据集还通过增强技术进行了扩充，确保了数据的代表性与一致性，为稳定性预测研究提供了可靠的基础。

特点

该数据集的核心特点在于其专注于蛋白质稳定性预测，提供了丰富的突变相关吉布斯自由能变化数据，并包含分类任务所需的离散化ΔG区间。数据来源多样，覆盖了广泛的蛋白质类型与突变场景，增强了模型的泛化能力。结构上采用简洁的CSV格式，每行记录包含氨基酸序列、ΔG值及其分箱标签，便于直接应用于特征提取与机器学习流程。这种设计不仅支持回归与分类任务的双重需求，还为深入探索序列与稳定性间的复杂关系奠定了数据基础。

使用方法

使用该数据集时，研究人员可将其直接加载至计算框架中，利用氨基酸序列作为输入特征，ΔG值或分箱标签作为预测目标。数据集适用于训练监督学习模型，如深度学习网络或传统机器学习算法，以预测突变对蛋白质稳定性的影响。在实际应用中，用户可结合嵌入技术或序列编码方法提取特征，并通过交叉验证评估模型性能。此外，数据集还可用于比较不同预测方法的优劣，或作为基准测试工具，推动蛋白质理性设计与突变研究的进展。

背景与挑战

背景概述

蛋白质稳定性预测是计算生物学与蛋白质工程领域的核心议题，其研究旨在通过突变引起的吉布斯自由能变化（ΔG）来评估蛋白质结构的热力学稳定性。ESMnrg数据集（亦称PSPD）由benchang323团队构建，发布于HuggingFace平台，汇集了多种文献来源的蛋白质序列及其对应的ΔG值，为开发机器学习模型提供了标准化资源。该数据集通过系统化的数据清洗、归一化与增强处理，致力于推动蛋白质理性设计与突变效应的高通量预测，对生物信息学与合成生物学的发展具有显著影响。

当前挑战

在蛋白质稳定性预测领域，核心挑战在于准确建模突变对蛋白质三维结构及能量景观的复杂影响，这需要克服序列-稳定性关系的非线性与上下文依赖性。数据构建过程中，面临多重困难：原始数据来源分散且测量标准不一，需通过严格的清洗与归一化确保一致性；ΔG值的分布常呈现不平衡性，要求采用数据增强策略以改善模型训练的泛化能力；同时，蛋白质序列的长度变异与结构背景的缺失，也为特征提取与模型设计增添了复杂性。

常用场景

经典使用场景

在蛋白质工程与计算生物学领域，蛋白质稳定性预测数据集（PSPD）为研究者提供了一个标准化的基准平台，用于开发和评估机器学习模型。该数据集通过整合蛋白质序列及其对应的吉布斯自由能变化（ΔG）数据，支持监督学习任务，如回归与分类分析。经典使用场景包括训练深度神经网络或传统算法，以准确预测突变对蛋白质稳定性的影响，从而加速蛋白质设计流程。

实际应用

在实际应用中，PSPD数据集被广泛用于指导理性蛋白质设计和定向进化研究。生物技术公司和研究机构利用该数据集训练的模型，优化工业酶、治疗性抗体或疫苗的稳定性，提升其热稳定性和功能活性。例如，在药物开发中，预测突变对蛋白质稳定性的影响有助于减少实验试错成本，加速生物制品的研发进程。

衍生相关工作

基于PSPD数据集，衍生出多项经典研究工作，推动了蛋白质稳定性预测领域的发展。例如，研究者开发了基于Transformer的模型如ESM或ProteinBERT，利用该数据集进行微调，实现了更高的预测准确性。此外，该数据集还促进了跨学科合作，催生了结合物理模拟与机器学习的混合方法，为蛋白质工程开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集