five

deepef-data

收藏
Hugging Face2026-04-06 更新2026-04-07 收录
下载链接:
https://huggingface.co/datasets/shaharec/deepef-data
下载链接
链接失效反馈
官方服务:
资源简介:
DeepEF数据集是用于训练和评估DeepEF(一种预测蛋白质热力学稳定性的深度学习框架)的蛋白质结构数据集。数据集包含三个主要部分:1) casp12_data_30,约110GB,包含CASP12结构的ProtT5嵌入,每个蛋白质以.pt张量形式存储,并分为训练集、测试集和验证集;2) Processed_K50_dG_datasets,约2.2GB,包含带有AlphaFold PDB模型的K50 ddG突变数据集;3) megascale_proteins.csv,一个较小的蛋白质列表文件。casp12_data_30数据集中的每个蛋白质文件夹包含多种数据文件,如骨架坐标、二面角、有效残基掩码、氨基酸单热编码、原始序列字符串、突变序列字符串、ProtT5嵌入及其循环排列和突变版本。这些数据适用于蛋白质结构预测、热力学稳定性分析及相关深度学习任务。
创建时间:
2026-04-06
原始信息汇总

DeepEF 数据集概述

数据集基本信息

  • 数据集名称:DeepEF Datasets
  • 主要用途:用于训练和评估 DeepEF(一个用于预测蛋白质热力学稳定性的深度学习框架)
  • 许可证:mit
  • 相关领域:蛋白质、结构生物学、热力学稳定性

数据集内容与规模

路径 大小 描述
casp12_data_30/ ~110GB 包含 ProtT5 嵌入的 CASP12 结构数据;按蛋白质分割的 .pt 张量文件,分为训练集、测试集和验证集
Processed_K50_dG_datasets/ ~2.2GB 包含 AlphaFold PDB 模型的 K50 ddG 突变数据集
megascale_proteins.csv 小文件 超大尺度蛋白质列表

数据格式说明(针对 casp12_data_30)

每个蛋白质在 train/test/valid-*/ 目录下是一个独立的文件夹,包含以下文件:

  • crd_backbone.pt:主链坐标 [序列长度, 4, 3]
  • ang.pt:二面角
  • mask.pt:有效残基掩码
  • seq_one_hot.pt:氨基酸单热编码 [序列长度, 20]
  • seq.pt:原始序列字符串
  • seq_mut.pt:突变序列字符串
  • proT5_emb.pt:ProtT5 嵌入 [序列长度, 1024]
  • proT5_emb_cycle1-4.pt:循环置换嵌入
  • proT5_emb_mut.pt:突变 ProtT5 嵌入

数据获取与使用

可通过 huggingface_hub 库下载数据:

  • 下载单个蛋白质文件
  • 下载整个数据子集(例如全部训练集)

相关资源

  • DeepEF 框架代码库:https://github.com/shaharec/DeepEF
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质结构生物学领域,DeepEF数据集的构建依托于国际蛋白质结构预测竞赛CASP12的权威数据源,通过整合高精度结构模型与前沿深度学习表征技术。该数据集的核心部分casp12_data_30将原始蛋白质结构转化为多维张量表示,每个蛋白质文件夹内系统性地包含了从骨架坐标、二面角到残基掩码的结构特征,同时融合了ProtT5生成的序列嵌入以及突变序列的专门表征,确保了数据在几何与语义层面的完整性。此外,数据集还纳入了基于AlphaFold模型处理的K50 ddG突变数据集,为蛋白质热力学稳定性研究提供了多尺度、多模态的数据基础。
特点
DeepEF数据集以其高度的结构化和多模态集成而著称,涵盖了从原子坐标到预训练语言模型嵌入的丰富特征。每个蛋白质样本不仅包含传统的结构参数如骨架坐标和二面角,还引入了ProtT5生成的1024维序列嵌入及其循环置换变体,这为捕捉蛋白质的远程相互作用和进化信息提供了深层语义支持。数据集特别设计了突变序列的专门表征,直接支持蛋白质稳定性突变效应的预测任务。其数据组织采用分文件夹的模块化存储,便于按训练、测试和验证分割进行高效访问与扩展,整体规模超过110GB,兼具广度与深度。
使用方法
利用DeepEF数据集进行蛋白质热力学稳定性预测研究时,用户可通过Hugging Face Hub提供的标准化接口灵活获取数据。对于单个蛋白质样本的加载,可使用hf_hub_download函数指定具体文件路径,如下载骨架坐标张量后直接通过PyTorch加载为张量对象。若需批量处理整个数据分割,snapshot_download函数支持通配符模式匹配,允许用户将特定分割(如训练集)完整下载至本地目录。数据格式统一为.pt张量文件,确保了与主流深度学习框架的无缝集成,用户可依据研究需求组合结构特征与嵌入特征,构建端到端的预测模型或进行迁移学习实验。
背景与挑战
背景概述
蛋白质热力学稳定性预测是结构生物学与计算生物信息学交叉领域的关键研究方向,对理解蛋白质折叠机制、酶功能调控及疾病相关突变效应具有深远意义。DeepEF数据集由相关研究团队于近年构建,旨在为深度学习框架DeepEF提供训练与评估基础,其核心研究问题聚焦于利用蛋白质三维结构数据与序列嵌入特征,精准预测点突变对蛋白质自由能变化(ΔΔG)的影响。该数据集整合了CASP12竞赛的结构数据、ProtT5预训练嵌入及AlphaFold生成模型,显著推动了数据驱动方法在蛋白质工程与理性设计中的应用,为高通量突变效应分析提供了标准化基准。
当前挑战
在蛋白质稳定性预测领域,主要挑战在于准确量化点突变引起的细微自由能变化,这需要模型同时捕获局部结构扰动与长程相互作用,而现有方法往往难以平衡计算效率与预测精度。DeepEF数据集的构建过程面临多重困难:一是原始蛋白质结构数据的质量与一致性处理,需解决实验测定结构与计算模型的异构性问题;二是大规模特征提取的计算复杂度,如ProtT5嵌入生成与结构坐标转换对存储与算力要求极高;三是突变数据的稀疏性与偏差,实验测定的ΔΔG值覆盖有限,需通过数据增强与迁移学习弥补样本不足。
常用场景
经典使用场景
在蛋白质结构生物学领域,DeepEF数据集被广泛应用于训练和评估深度学习模型,以预测蛋白质的热力学稳定性。该数据集整合了CASP12竞赛中的蛋白质结构数据,并融合了ProtT5嵌入表示,为研究人员提供了丰富的结构特征与序列信息。通过结合三维坐标、二面角及掩码等多元数据,它支持模型从多角度解析蛋白质的构象变化,从而优化稳定性预测的准确性。
实际应用
在实际应用中,DeepEF数据集被广泛用于工业生物技术与药物研发领域。例如,在酶工程中,研究人员利用该数据集训练模型,预测蛋白质突变体的稳定性,以筛选出耐受高温或极端pH的工业酶变体。在生物制药方面,它帮助优化抗体或治疗性蛋白的构象稳定性,降低聚集倾向,从而提升药物的安全性与有效性,为生物制造过程提供关键支持。
衍生相关工作
基于DeepEF数据集,衍生了一系列经典研究工作,如DeepEF框架本身,它利用深度学习整合结构特征与序列嵌入,实现了高效的稳定性预测。此外,该数据集还促进了蛋白质突变效应预测模型的改进,例如结合图神经网络或注意力机制的变体,这些工作进一步拓展了蛋白质功能注释与设计的前沿。相关研究也推动了多模态数据融合在生物计算中的应用,为蛋白质工程领域注入了新的活力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作