five

tyang816/Thermostability_ESMFold

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/tyang816/Thermostability_ESMFold
下载链接
链接失效反馈
官方服务:
资源简介:
在材料科学和分子生物学中,热稳定性是指物质在高相对温度下抵抗其化学或物理结构发生不可逆变化的能力,通常通过抵抗分解或聚合来实现。该数据集包含蛋白质氨基酸序列、foldseek 20 3di结构序列和DSSP 8二级结构序列。

在材料科学和分子生物学中,热稳定性是指物质在高相对温度下抵抗其化学或物理结构发生不可逆变化的能力,通常通过抵抗分解或聚合来实现。该数据集包含蛋白质氨基酸序列、foldseek 20 3di结构序列和DSSP 8二级结构序列。
提供机构:
tyang816
原始信息汇总

Thermostability Dataset with ESMFold Structural Sequence

数据集概述

  • 领域: 材料科学和分子生物学
  • 描述: 该数据集关注物质的耐热性,即在高温下抵抗化学或物理结构不可逆变化的能力,如抵抗分解或聚合。

数据集详情

  • 标签数量: 1
  • 问题类型: 回归
  • 数据列:
    • aa_seq: 蛋白质氨基酸序列
    • foldseek_seq: foldseek 20 3di结构序列
    • ss8_seq: DSSP 8二级结构序列

许可

  • 许可证: Apache-2.0

任务类别

  • 任务类别: 文本分类

标签

  • 标签:
    • 蛋白质
    • 下游任务
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质工程领域,精准预测蛋白质热稳定性对酶设计与生物催化至关重要。本数据集构建过程整合了前沿计算工具,首先通过ESMFold模型生成蛋白质三维结构,进而利用FoldSeek算法将结构信息编码为20类三维相互作用(3Di)序列,同时结合DSSP工具从结构中提取八类二级结构(SS8)序列。原始氨基酸序列与衍生的结构序列共同构成了数据核心,确保了数据在序列与结构层面的双重表征,为模型提供了丰富的多尺度特征。
特点
该数据集的核心特点在于其多维度的蛋白质表征体系。它不仅提供了标准的氨基酸序列,更创新性地融合了由FoldSeek生成的结构序列和DSSP解析的二级结构序列,从而将蛋白质的序列信息与高阶结构信息有机统一。这种设计使得数据集能够同时捕捉蛋白质的化学组成与空间构象特征,为开发结构感知的机器学习模型奠定了坚实基础,特别适用于对构象敏感的下游任务,如热稳定性回归预测。
使用方法
该数据集适用于监督学习框架下的回归任务,旨在预测蛋白质的热稳定性数值。使用者可将`aa_seq`、`foldseek_seq`和`ss8_seq`三列数据作为模型输入特征。典型的应用流程包括:利用蛋白质语言模型或序列模型对氨基酸序列进行编码,同时结合专门网络处理结构序列,通过特征融合层整合多源信息,最终通过回归层输出稳定性预测值。相关代码实现可参考提供的GitHub仓库,便于快速进行模型训练与评估。
背景与挑战
背景概述
在蛋白质工程与计算生物学领域,蛋白质的热稳定性是衡量其在高温度环境下维持结构与功能完整性的关键属性,直接影响工业酶设计与生物制药的效能。tyang816/Thermostability_ESMFold数据集由谭阳等研究人员于2024年构建,依托ESMFold结构预测模型,整合氨基酸序列、Foldseek三维结构序列及DSSP二级结构序列,旨在通过回归任务量化蛋白质的热稳定性。该数据集作为SES-Adapter与VenusFactory平台的核心组成部分,推动了结构感知蛋白质语言模型的发展,为高效蛋白质工程提供了数据基础,显著提升了模型在生物分子设计中的预测精度与应用范围。
当前挑战
该数据集致力于解决蛋白质热稳定性预测这一复杂回归问题,其挑战在于如何从多尺度结构信息中准确捕捉温度耐受性的微观决定因素,例如氨基酸排列与空间构象的协同效应。在构建过程中,研究人员需克服数据整合的难题:将ESMFold生成的结构序列与实验测定的热稳定性数据对齐,确保序列表示的可靠性;同时,处理高维结构特征的冗余性与噪声,以优化模型输入的有效性。这些挑战要求精细的数据标注与跨模态信息融合,以支撑下游任务的稳健学习。
常用场景
经典使用场景
在蛋白质工程领域,热稳定性是衡量蛋白质在高温环境下保持其结构和功能完整性的关键指标。该数据集通过整合氨基酸序列、Foldseek结构序列和DSSP二级结构序列,为研究者提供了一个多模态的回归分析平台。经典使用场景涉及利用蛋白质语言模型,如ESMFold,对序列与结构特征进行联合编码,进而预测蛋白质的热稳定性数值。这一过程通常结合深度学习架构,探索序列-结构-功能之间的复杂映射关系,为理性设计耐热蛋白质奠定数据基础。
解决学术问题
该数据集直接应对蛋白质工程中的核心挑战:如何准确量化蛋白质的热稳定性,并揭示其与序列及结构特征的关联。它解决了传统实验方法耗时耗力、难以大规模筛选的问题,通过计算模型实现高效预测。其意义在于推动了结构感知的蛋白质语言模型发展,使研究者能够从海量序列数据中挖掘稳定性规律,加速了蛋白质定向进化与设计的研究进程,对生物制药和工业酶开发具有深远影响。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。其中,SES-Adapter提出了一种简单高效的结构感知适配器,增强了蛋白质语言模型对结构信息的利用能力。VenusFactory平台则构建了一个统一的蛋白质工程数据检索与微调系统,促进了数据集的标准化应用。这些工作共同推动了蛋白质语言模型在稳定性预测方面的进展,为后续研究提供了可扩展的框架和方法学基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作