five

ClarusC64/protein-mutation-stability-instability-v0.1

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ClarusC64/protein-mutation-stability-instability-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en license: mit pretty_name: Protein Mutation Stability Instability task_categories: - tabular-classification tags: - clarusc64 - stability-reasoning - protein - mutation - protein-stability - folding - tabular size_categories: - n<1K --- # protein-mutation-stability-instability-v0.1 ## What this dataset does This dataset evaluates whether models can detect protein instability caused by mutation effects. Each row represents a simplified mutation scenario described through structural and interaction proxies. The task is to determine whether the mutation is likely to destabilize the protein. ## Core stability idea Mutation instability does not depend on mutation severity alone. A mutation may be tolerated if it occurs in a flexible or weakly coupled region. A moderate mutation may become destabilizing when it occurs in a buried, conserved, highly coupled region with charge disruption and weak thermal margin. The dataset tests interaction reasoning across: - mutation severity - mutation position - burial context - contact density - hydrophobic core density - charge disruption - conservation - thermal stability ## Prediction target label = 1 → mutation-driven instability label = 0 → stable or tolerated mutation ## Row structure Each row includes: - sequence length - mutation position ratio - mutation severity - burial proxy - contact density - hydrophobic core density - charge disruption proxy - conservation proxy - thermal stability proxy ## Evaluation Predictions must follow: scenario_id,prediction Example: MS101,0 MS102,1 Run evaluation: python scorer.py --predictions predictions.csv --truth data/test.csv --output metrics.json Metrics produced: accuracy precision recall f1 confusion matrix ## Structural Note This dataset reflects latent protein stability geometry through observable structural proxies. The generator and underlying stability rules are not included. ## License MIT

This dataset evaluates whether models can detect protein instability caused by mutation effects. Each row represents a simplified mutation scenario described through structural and interaction proxies. The task is to determine whether the mutation is likely to destabilize the protein (label = 1 → mutation-driven instability, label = 0 → stable or tolerated mutation). The dataset tests interaction reasoning across mutation severity, mutation position, burial context, contact density, hydrophobic core density, charge disruption, conservation, and thermal stability. Each row includes sequence length, mutation position ratio, mutation severity, burial proxy, contact density, hydrophobic core density, charge disruption proxy, conservation proxy, and thermal stability proxy.
提供机构:
ClarusC64
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于蛋白质突变对稳定性影响的简化情景构建而成,通过结构性与交互性代理变量来模拟突变效应。每一行数据代表一个简化的突变场景,涵盖序列长度、突变位置比率、突变严重程度、埋藏代理、接触密度、疏水核心密度、电荷干扰代理、保守性代理及热稳定性代理等多个维度。数据标签基于突变是否破坏蛋白质稳定性进行二分类标注(1表示不稳定,0表示稳定或可耐受),并隐含了突变严重性、位置、埋藏环境、接触密度、疏水核心密度、电荷干扰、保守性与热稳定性之间的交互推理规则。
特点
该数据集的核心特点在于其通过可观测的结构代理变量间接反映蛋白质稳定性的潜在几何结构,而并未直接暴露底层生成规则。数据量小于1000条,属于小规模分类数据集,但强调对突变稳定性进行多因素交互推理的能力评估。其任务设计不仅关注突变本身的严重性,更注重突变发生的结构环境(如柔性区域、埋藏区域、高度耦合区域)对稳定性影响的综合判断,从而测试模型在复杂生物学情景下的推理能力。
使用方法
数据集以表格分类任务形式提供,每行包含突变情景的代理特征与二元标签。评估方式要求模型输出预测文件,格式为每行包含scenario_id与prediction(例如MS101,0),并通过提供的Python评估脚本(scorer.py)与真实标签对比计算准确率、精确率、召回率、F1分数及混淆矩阵等指标。该脚本需指定预测文件路径、真实测试数据路径及输出指标路径执行。用户可直接基于表格特征构建分类模型,或将其作为基准测试任务应用于蛋白质稳定性推理能力的评估。
背景与挑战
背景概述
蛋白质作为生命活动的核心执行者,其功能的维持高度依赖于正确折叠所赋予的三维空间结构。然而,氨基酸序列的突变常常会扰乱这种精妙的构象平衡,引发稳定性下降甚至丧失功能,这一现象是蛋白质工程、药物设计及理解人类多种遗传性疾病致病机制的关键。在此背景下,由相关研究机构创建的protein-mutation-stability-instability-v0.1数据集应运而生,旨在评估模型对突变引发蛋白质失稳的推理能力。该数据集通过一系列结构性和相互作用的代理变量(如埋藏程度、接触密度、电荷扰动等)构建了简化但本质的突变场景,为探索突变与稳定性之间的复杂非线性因果关系提供了标准化的基准测试平台,对推动计算生物学中稳定性预测模型的理性评估具有深远影响。
当前挑战
该数据集主要应对的领域挑战在于,突变对蛋白质稳定性的影响并非由单一因素(如突变严重性)决定,而是多重物理化学约束(如残基位置、埋藏环境、保守性、热力学边际等)相互交织的复杂推理问题。传统方法难以捕捉这种高维耦合空间中的非线性判据。在构建过程中,数据集的挑战体现在如何从真实的分子动力学复杂性中抽象出有效的代理特征,以避免过度简化而丧失生物学相关性;同时,需要确保生成的少量样本(n<1K)能够覆盖具有典型区分度的稳定性失稳模式,防止模型仅通过记忆局部特征而非学习底层原理做出预测,且不泄露隐式的生成规则以确保评估的公正性。
常用场景
经典使用场景
该数据集专为评估蛋白质突变对稳定性影响的推理能力而设计,适用于多模态生物信息学模型。研究者可利用其提供的结构代理特征(如埋藏程度、接触密度、疏水核心密度、电荷扰动及热稳定性等)训练分类模型,以区分突变是否导致蛋白质失稳。作为小样本学习基准,它特别适合检验语言模型或图神经网络在蛋白质稳定性预测任务上的泛化性能。
实际应用
该数据集的实用价值体现在蛋白质药物设计中,例如辅助判断治疗性抗体的热稳定性突变、设计耐高温工业酶或优化合成生物学元件的折叠效率。通过快速筛查潜在有害突变,可降低湿实验筛选成本,并加速定向进化中突变文库的理性设计流程。此外,在个性化医疗领域,它也能用于评估人类疾病相关错义突变的结构风险。
衍生相关工作
该数据集衍生出的经典工作包括基于结构代理的蛋白质稳定性预测模型(如ProS-GNN)、融合进化保守性与热力学特征的混合分类器,以及探索突变位置与局部疏水环境耦合效应的可解释性分析工具。后续研究还尝试将其与AlphaFold预测的结构信息结合,构建端到端失稳风险评分系统,推动了从静态序列到动态构象的理性设计范式演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作