ClarusC64/protein-complex-interface-instability-v0.1
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ClarusC64/protein-complex-interface-instability-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: mit
pretty_name: Protein Complex Interface Instability
task_categories:
- tabular-classification
tags:
- clarusc64
- stability-reasoning
- protein
- protein-interface
- protein-complex
- molecular-instability
- tabular
size_categories:
- n<1K
---
# protein-complex-interface-instability-v0.1
## What this dataset does
This dataset evaluates whether models can detect instability in protein–protein interaction interfaces.
Each row represents a simplified molecular interaction scenario described through structural and interface stability proxies.
The task is to determine whether the interaction interface is stable or likely to collapse.
## Core stability idea
Protein complexes rely on stable interaction interfaces formed by residue contacts and electrostatic compatibility.
Interface instability can arise when mutations or structural perturbations disrupt these interactions.
Signals that interact include:
- interface contact density
- binding affinity
- mutation exposure at the interface
- packing stability
- electrostatic mismatch
- solvent exposure
- thermal stability
- allosteric coupling
No single feature determines interface stability. Instability emerges from the interaction between these variables.
## Prediction target
label = 1 → interface instability
label = 0 → stable protein–protein interaction
## Row structure
Each row contains proxies describing interaction stability:
- sequence length
- interface contact density
- binding affinity proxy
- mutation interface exposure
- packing stability proxy
- electrostatic mismatch proxy
- solvent exposure proxy
- thermal margin proxy
- allosteric coupling proxy
## Evaluation
Predictions must follow:
scenario_id,prediction
Example:
CI101,0
CI102,1
Run evaluation:
python scorer.py --predictions predictions.csv --truth data/test.csv --output metrics.json
Metrics produced:
accuracy
precision
recall
f1
confusion matrix
## Structural Note
This dataset reflects latent molecular stability geometry expressed through observable interface proxies.
The dataset generator and underlying stability rules are not included.
## License
MIT
This dataset evaluates whether models can detect instability in protein–protein interaction interfaces. Each row represents a simplified molecular interaction scenario described through structural and interface stability proxies. The core stability idea involves factors such as interface contact density, binding affinity, mutation exposure, packing stability, electrostatic mismatch, solvent exposure, thermal stability, and allosteric coupling. The prediction target is to determine whether the interaction interface is stable (label=0) or likely to collapse (label=1). Each row contains proxies describing interaction stability. Evaluation metrics include accuracy, precision, recall, F1 score, and confusion matrix. The dataset reflects latent molecular stability geometry expressed through observable interface proxies.
提供机构:
ClarusC64
搜集汇总
数据集介绍

构建方式
该数据集旨在评估模型在蛋白质-蛋白质相互作用界面中检测不稳定性的能力。每行数据代表一个简化的分子相互作用场景,通过结构及界面稳定性代理指标进行描述。数据构建基于蛋白质复合物中残基接触与静电相容性决定的稳定界面机制,当突变或结构扰动破坏这些相互作用时,界面不稳定便可能产生。影响稳定性的代理指标包括界面接触密度、结合亲和力、突变暴露程度、堆积稳定性、静电不匹配、溶剂暴露、热稳定性及别构耦合效。数据集的标签设定为:1表示界面不稳定,0表示蛋白质-蛋白质相互作用稳定。所有指标均以表格分类形式呈现,样本数量不足1000个,确保了数据的简洁性与聚焦性。
特点
该数据集的核心特点在于从多个交叉维度的代理指标共同推导蛋白质界面的稳定性,而非依赖单一特征判定。这些代理指标包括序列长度、界面接触密度、结合亲和力代理、突变界面暴露、堆积稳定性代理、静电不匹配代理、溶剂暴露代理、热稳定性边际代理及别构耦合代理。数据集反映了潜在分子稳定性几何通过可观察的界面代理表达的内涵,但其底层生成规则与数据集生成器未被公开,这增强了评估的真实性与挑战性。数据集的MIT许可协议允许广泛使用,适用于稳定性推理任务,尤其适合探索多变量交互作用导致的涌现不稳定性现象。
使用方法
使用该数据集时,模型需根据提供的代理指标对每行数据进行二分类预测,输出格式为scenario_id与预测值(0或1)组成的CSV文件。评估脚本scorer.py接受预测结果与真实标签进行比对,计算准确率、精确率、召回率、F1分数以及混淆矩阵等评估指标。用户需在命令行运行类似'python scorer.py --predictions predictions.csv --truth data/test.csv --output metrics.json'的命令以获取评估报告。数据集以英文呈现,任务类别为表格分类,适用于蛋白质界面不稳定性的逻辑推理与模式识别研究,应用场景包括计算生物学中的突变影响预测与蛋白质工程中的稳定性优化。
背景与挑战
背景概述
蛋白质复合物界面稳定性是分子生物学与药物设计领域的核心问题之一。该数据集由ClarusC64团队创建,发布于2025年,旨在评估模型对蛋白质-蛋白质相互作用界面不稳定性的检测能力。基于蛋白质复合物依赖残基接触与静电兼容性形成稳定界面的基本原理,数据集通过多维度代理变量模拟分子相互作用场景,核心研究问题为判别界面是否趋于塌陷。作为首个聚焦于蛋白质界面稳定性推理的分类数据集,其构建为理解突变、结构扰动等导致界面失稳的机制提供了标准化评估基准,对蛋白质工程、药物靶点发现及计算结构生物学领域具有重要推动作用。
当前挑战
该数据集面临的挑战主要涉及两个方面。在领域问题层面,蛋白质界面稳定性由接触密度、结合亲和力、突变暴露度、堆积稳定性、静电失配、溶剂暴露、热稳定性及别构耦合等多变量交互决定,单一特征无法准确判定的复杂性构成了核心科学难题。在构建过程中,数据集需通过可观测代理变量精确表征潜在的分子稳定性几何形态,同时隐去生成器与底层规则,以防止模型通过记忆化捷径学习,确保评估聚焦于真正的稳定性推理能力,这对数据生成与评估设计提出了极高要求。
常用场景
经典使用场景
在蛋白质复合物结构与功能的研究领域中,该数据集被广泛应用于评估模型对蛋白质-蛋白质相互作用界面稳定性的判别能力。通过提供包含界面接触密度、结合亲和力、突变暴露、堆积稳定性、静电失配、溶剂暴露、热稳定性及别构耦合等多元代理变量的分子互作场景,每个样本均标注了界面是否稳定或趋于崩溃的二分类标签,为探究蛋白质复合物界面失稳的触发机制提供了标准化的评测基准。
衍生相关工作
该数据集催生了一系列围绕蛋白质界面稳定性推理的经典工作,包括开发基于图神经网络的界面接触模式分析框架、构建融合物理能量函数与深度学习的混合判别模型,以及探索对比学习范式在少样本界面稳定性分类中的应用。这些衍生研究不仅深化了对蛋白质复合物动态稳定性的理解,也为后续构建高精度蛋白质设计指导模型奠定了基准,推动了计算生物学中结构化数据推理任务的方法论创新。
数据集最近研究
最新研究方向
该数据集聚焦于蛋白质复合物界面不稳定性检测的前沿探索,旨在评估模型能否从多维度分子相互作用特征中辨识界面稳定性。结合结构生物学与计算生物学的最新进展,蛋白质界面稳定性研究正与突变效应预测、药物靶点发现及功能丧失机制解析等热点事件紧密交织。通过整合界面接触密度、结合亲和力、突变暴露度及静电失配等代理变量,该数据集推动人工智能从单一特征依赖向多模态因果推断跃迁,为理解分子机器构象动态与装配纠错提供定量基准,亦在蛋白质工程与疾病关联变异解读中彰显深远意义。
以上内容由遇见数据集搜集并总结生成



