five

FireProtDB2

收藏
Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/drake463/FireProtDB2
下载链接
链接失效反馈
官方服务:
资源简介:
FireProtDB_2.0 数据集是一个关于蛋白质稳定性的精选数据集,包含来自 FireProtDB 数据库的单点突变体的不同热稳定性测量子集。数据集根据测量类型(ΔG、ΔΔG、Tm、ΔTm、适应度、二元稳定化)分为多个子集,并基于各子集中蛋白质的序列相似性按 80/10/10 的比例划分为训练集、验证集和测试集。稳定化子集是一个二元分类数据集,用于指示突变是稳定化还是去稳定化。该数据集适用于训练模型以预测各种热稳定性指标或评估突变的稳定性效应。数据集来源于 FireProtDB 数据库,并经过 Pandas 和 mmseqs2 的处理。数据集采用 CC-BY-4.0 许可,主要语言为英语,适用于化学和生物学领域的研究。

FireProtDB_2.0 dataset is a curated dataset focused on protein stability, containing distinct subsets of thermal stability measurements for single-point mutants sourced from the FireProtDB database. The dataset is divided into multiple subsets based on measurement types, including ΔG, ΔΔG, Tm, ΔTm, fitness, and binary stabilization. It is split into training, validation, and test sets at an 80/10/10 ratio according to the sequence similarity of proteins within each subset. The stabilization subset is a binary classification dataset that indicates whether a mutation is stabilizing or destabilizing. This dataset is suitable for training models to predict various thermal stability metrics or evaluate the stability effects of mutations. The dataset is sourced from the FireProtDB database and processed using Pandas and mmseqs2. It is licensed under CC-BY-4.0, primarily in English, and is intended for research in the fields of chemistry and biology.
创建时间:
2026-03-04
原始信息汇总

FireProtDB_2.0 数据集概述

数据集基本信息

  • 数据集名称:FireProtDB_2.0
  • 许可证:cc-by-4.0
  • 主要语言:英语 (en)
  • 标签:化学 (chemistry)、生物学 (biology)
  • 数据集地址:https://huggingface.co/datasets/drake463/FireProtDB2

数据集详情

该数据集包含从FireProtDB(一个综合性的手动管理数据库)中提取的单点突变蛋白质稳定性数据的子集。这些子集基于不同的热稳定性测量类型进行划分,并提供了训练/验证/测试分割。

数据子集类型

数据集包含以下六个子集,每个子集对应一种特定的热稳定性测量或分类:

  1. ΔG (mutation_dg):吉布斯自由能变化。
  2. ΔΔG (mutation_ddg):吉布斯自由能变化的变化。
  3. Tm (mutation_tm):熔解温度。
  4. ΔTm (mutation_dtm):熔解温度的变化。
  5. Fitness (mutation_fitness):适应度。
  6. Binary Stabilizing (mutation_binary):稳定化分类(二元标签),由FireProtDB判定突变是稳定化(true)还是去稳定化(false)。

数据划分

每个子集均按80/10/10的比例划分为训练集、验证集和测试集。划分依据是每个子集中不同蛋白质的序列相似性。

数据集来源

  • 原始数据库:FireProtDB (https://loschmidt.chaemi.muni.cz/fireprotdb/)
  • 相关论文:Milos Musil 等人于2026年发表在《Nucleic Acids Research》上的论文 "FireProtDB 2.0: large-scale manually curated database of the protein stability data"。DOI: https://doi.org/10.1093/nar/gkaf1211

数据集用途

适用于训练模型以预测各种热稳定性指标,或评估突变对稳定性的影响。

数据集结构

  • 数据格式:Parquet 文件。
  • 配置 (Configs):每个数据子集对应一个配置名称,其下包含 trainvalidationtest 三个分割。
  • 数据文件路径示例data/subsets/mutation_dg/train.parquet

数据收集与处理

数据集使用FireProtDB的CSV文件(https://loschmidt.chemi.muni.cz/fireprotdb/download/)进行处理。处理流程主要使用了Pandas和mmseqs2工具,相关代码可在 src/ 目录中找到。

维护者

  • 管理者:Zachary Drake (zacharydrake (at) g.ucla.edu)
搜集汇总
数据集介绍
构建方式
在蛋白质工程领域,FireProtDB2数据集的构建源于对热稳定性数据的系统性整合。该数据集从FireProtDB数据库中提取了单点突变体的多种热稳定性测量数据,包括ΔG、ΔΔG、Tm、ΔTm、适应度和稳定性分类。通过使用Pandas和mmseqs2等工具对原始CSV文件进行处理,数据被划分为基于序列相似性的训练集、验证集和测试集,划分比例为80/10/10,确保了数据在蛋白质序列层面的代表性。这种构建方式不仅保留了数据的科学严谨性,还通过手动策展提升了数据的质量和可靠性。
特点
FireProtDB2数据集的特点体现在其多样化的热稳定性测量类型和精细的数据组织。数据集涵盖了从自由能变化到熔解温度等多种物理化学指标,并引入了二进制的稳定性分类标签,为机器学习模型提供了丰富的监督信号。数据以Parquet格式存储,支持高效的数据读取和处理,同时每个子集都经过严格的序列相似性划分,避免了数据泄露问题。这种结构化的设计使得数据集能够广泛应用于蛋白质稳定性预测和突变效应评估的研究中。
使用方法
使用FireProtDB2数据集时,研究人员可以根据具体任务选择相应的子集进行模型训练或评估。例如,对于预测自由能变化的回归任务,可以加载mutations_dg或mutations_ddg配置;而对于稳定性分类问题,则可以使用mutations_binary子集。数据集已预分割为训练、验证和测试部分,用户可以直接加载这些分区进行模型开发。通过HuggingFace平台,数据能够便捷地集成到现有的机器学习流程中,支持蛋白质工程领域的算法创新和性能基准测试。
背景与挑战
背景概述
蛋白质热稳定性是生物医学与生物技术应用中的核心属性,其精准预测对于酶工程、药物设计等领域具有深远意义。FireProtDB2数据集由Milos Musil等研究人员于2025年发布,作为FireProtDB数据库的扩展版本,该数据集系统整合了来自多源的蛋白质稳定性实验数据,涵盖单点突变及复杂突变类型。该数据集旨在为计算模型提供高质量、大规模的手动标注数据,以克服传统实验方法成本高昂、周期漫长的局限,从而推动蛋白质稳定性预测算法的可靠性与泛化能力提升,对结构生物学与计算生物学的交叉研究产生了显著影响。
当前挑战
在领域层面,蛋白质稳定性预测面临数据异质性高、测量标准不统一以及突变效应复杂建模等挑战,FireProtDB2通过整合ΔG、Tm、适应性等多类热稳定性指标,试图为算法提供统一基准,但如何准确捕捉突变对蛋白质三维结构及功能的细微影响仍是核心难题。在构建过程中,数据集需处理近550万实验数据的清洗、去重与标准化,并确保不同来源数据的一致性与可追溯性,同时遵循FAIR原则实现数据的可持续扩展与维护,这些工作对数据集的完整性与可靠性提出了极高要求。
常用场景
经典使用场景
在蛋白质工程与计算生物学领域,FireProtDB2数据集为研究蛋白质热稳定性提供了关键的数据支持。该数据集最经典的使用场景在于训练机器学习模型,以预测单点突变对蛋白质热稳定性的影响,涵盖ΔG、ΔΔG、Tm、ΔTm、适应度及二元稳定性分类等多种热稳定性指标。通过基于序列相似性划分的训练、验证和测试子集,研究人员能够构建和评估预测模型,从而系统探索突变如何改变蛋白质的结构与功能稳定性。
衍生相关工作
基于FireProtDB2数据集,已衍生出多项经典研究工作,主要集中在深度学习与机器学习模型的开发上。例如,研究人员利用该数据训练图神经网络或Transformer架构,以预测突变导致的自由能变化或热变性温度偏移。这些模型不仅提升了预测精度,还推动了蛋白质稳定性预测工具的迭代,如FireProt等计算平台的优化,为蛋白质工程提供了高效的计算支持,促进了领域内方法学的创新与标准化。
数据集最近研究
最新研究方向
在蛋白质工程与计算生物学领域,FireProtDB2作为大规模手动注释的蛋白质稳定性数据库,其最新研究聚焦于利用深度学习模型精准预测单点突变对蛋白质热稳定性的影响。前沿探索正整合多模态数据,如ΔG、ΔΔG、Tm等热力学参数,以构建端到端的可解释性预测框架。随着人工智能驱动的蛋白质设计成为热点,该数据集为优化酶催化活性、开发新型生物疗法提供了关键数据支撑,显著加速了蛋白质理性设计进程,并推动生物制造与医疗应用的创新突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作