ClarusC64/protein-chaperone-rescue-window-v0.1
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ClarusC64/protein-chaperone-rescue-window-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: mit
pretty_name: Protein Chaperone Rescue Window
task_categories:
- tabular-classification
tags:
- clarusc64
- stability-reasoning
- protein
- chaperone
- rescue-window
- protein-folding
- molecular-instability
- tabular
size_categories:
- n<1K
---
# protein-chaperone-rescue-window-v0.1
## What this dataset does
This dataset evaluates whether models can detect when a folding defect can no longer be rescued by chaperone support.
Each row represents a simplified protein folding scenario described through molecular stability and chaperone-response proxies.
The task is to determine whether the folding pathway remains within a rescue window or has moved toward unrecoverable instability.
## Core stability idea
Chaperones can stabilize misfolding-prone proteins, but rescue capacity depends on timing and interaction strength.
A protein may remain stable when chaperone availability and binding affinity are sufficient relative to misfolding pressure.
Instability emerges when:
- misfolding propensity rises
- local frustration increases
- chaperone availability declines
- chaperone binding affinity weakens
- folding delay widens
- aggregation risk rises
- rescue window narrows
The dataset tests reasoning about whether folding instability remains recoverable.
## Prediction target
label = 1 → rescue window failure
label = 0 → recoverable or stable folding pathway
## Row structure
Each row includes:
- sequence length
- misfolding propensity proxy
- local frustration proxy
- chaperone availability proxy
- chaperone binding affinity proxy
- folding delay proxy
- thermal stability proxy
- aggregation risk proxy
- rescue window width proxy
## Evaluation
Predictions must follow:
scenario_id,prediction
Example:
CR101,0
CR102,1
Run evaluation:
python scorer.py --predictions predictions.csv --truth data/test.csv --output metrics.json
Metrics produced:
accuracy
precision
recall
f1
confusion matrix
## Structural Note
This dataset reflects latent molecular stability geometry expressed through observable folding and chaperone-response proxies.
The dataset generator and latent stability rules are not included.
## License
MIT
This dataset evaluates whether models can detect when a folding defect can no longer be rescued by chaperone support. Each row represents a simplified protein folding scenario described through molecular stability and chaperone-response proxies. The task is to determine whether the folding pathway remains within a rescue window or has moved toward unrecoverable instability. The core stability idea is that chaperones can stabilize misfolding-prone proteins, but rescue capacity depends on timing and interaction strength. The prediction target is label = 1 → rescue window failure, label = 0 → recoverable or stable folding pathway. Each row includes sequence length, misfolding propensity proxy, local frustration proxy, chaperone availability proxy, chaperone binding affinity proxy, folding delay proxy, thermal stability proxy, aggregation risk proxy, and rescue window width proxy. Evaluation includes accuracy, precision, recall, f1, and confusion matrix. The dataset reflects latent molecular stability geometry expressed through observable folding and chaperone-response proxies.
提供机构:
ClarusC64
搜集汇总
数据集介绍

构建方式
在蛋白质折叠的分子生物学背景下,伴侣分子对错误折叠蛋白的拯救能力具有时限性与强度依赖性。本数据集通过模拟简化蛋白质折叠场景构建而成,每行数据以分子稳定性与伴侣响应代理变量为核心,包括序列长度、错误折叠倾向代理、局部挫折代理、伴侣可用性代理、伴侣结合亲和力代理、折叠延迟代理、热稳定性代理、聚集风险代理及拯救窗口宽度代理等九个特征。数据集基于潜在稳定性几何规则生成,但生成器与规则本身不公开,以确保推理任务的纯粹性。
特点
该数据集的核心特点在于聚焦伴侣分子拯救窗口的临界判断,通过二元分类任务评估模型对折叠缺陷可恢复性的推理能力。标签1代表窗口外不可恢复,标签0代表窗口内可挽救或稳定折叠路径。数据规模小于1000条,适合快速评估,且包含清晰的结构化特征,能够反映从分子稳定性到抢救窗口的动态关系。数据集从多个代理维度出发,协同刻画折叠稳定性瓦解的关键变量。
使用方法
使用方法遵循标准表格分类流程:模型基于每条样本的九维特征预测标签,输出格式需为scenario_id与预测结果对应的CSV文件,例如CR101,0。评估环节通过调用官方scorer.py脚本完成,需提供预测文件predictions.csv与真实标签文件data/test.csv,脚本将返回准确率、精确率、召回率、F1分数及混淆矩阵等指标。该数据集适用于训练与测试蛋白质稳定性推理模型。
背景与挑战
背景概述
在蛋白质折叠与分子伴侣调控这一前沿交叉领域,准确捕捉折叠缺陷的可逆性边界对于理解蛋白质稳态失衡及病理性聚集至关重要。该数据集由研究团队于近期创建,聚焦于分子伴侣对错误折叠蛋白质的挽救窗口这一核心问题,旨在测试模型能否从分子稳定性与伴侣应答的代理特征中推理出折叠通路是否已滑向不可逆失稳。通过生成简化的蛋白质折叠场景并关联序列长度、错误折叠倾向、局部挫败、伴侣结合亲和力等八项代理指标,数据集揭示了潜在分子稳定性几何与实际观测特征之间的映射关系,为蛋白质折叠动力学与伴侣调控机制的因果推理提供了结构化基准。该数据集的引入有助于推动可解释性预测模型在蛋白质稳态维护与退行性疾病机制研究中的应用,扩展了分子计算生物学中关于稳定性推理的边界。
当前挑战
该数据集所解决的领域挑战在于,蛋白质折叠系统存在一个关键的挽救窗口,超出此窗口后伴侣辅助无法恢复稳定,当前模型却普遍缺乏对此动态边界的因果推理能力。现有方法多依赖于静态序列或结构特征,难以捕捉错误折叠倾向上升、局部挫败加剧、伴侣可用性下降、结合亲和力减弱、折叠延迟延长、聚集风险升高及挽救窗口收窄等多维变量协同作用下的非线性相变。在构建过程中,挑战在于如何通过合成数据精准模拟潜在的稳定性几何规则,并确保八项代理特征切实反映真实折叠途径中的可观测动力学,同时避免引入生成器内在偏移,从而构建出既具因果结构又能泛化至实际生物系统的评估基准。
常用场景
经典使用场景
在蛋白质折叠与分子伴侣调控的研究领域中,该数据集被设计用于评估模型是否能够准确判断折叠缺陷是否已超出分子伴侣的挽救能力范围。每条数据通过序列长度、错误折叠倾向、局部挫败、伴侣可用性、结合亲和力、折叠延迟、热稳定性、聚集风险及挽救窗口宽度等九个特征,模拟了简化的蛋白质折叠场景。经典的使用方式是作为二分类任务,模型需根据这些稳定性代理指标预测蛋白质折叠路径是否仍处于可挽救的窗口内,即标签1表示挽救失败,0表示可恢复或稳定。该任务尤其考验模型对分子动力学中时间依赖性和相互作用强度的综合推理能力。
实际应用
在实际应用中,该数据集可服务于制药与生物技术领域,尤其是蛋白质药物开发与生产环节。模型能够帮助筛选出那些高错误折叠风险且在伴侣存在下仍难以挽救的蛋白序列,从而指导分子工程改造,例如优化伴侣结合位点或调整折叠条件。此外,在细胞工程中,可用于设计更稳健的蛋白表达系统,通过监测伴侣可用性和聚集风险等代理变量,在工业生产前预警潜在的蛋白失活隐患。对于基因编辑与合成生物学,它还能辅助评估新设计蛋白在生理环境下的折叠可靠性。
衍生相关工作
该数据集衍生了一系列具有启发性的工作,例如基于该数据集的模型可被扩展为动态伴侣分配策略的仿真系统,用于研究不同细胞状态下伴侣资源的最优调度。研究者还可能将其特征集与蛋白质序列嵌入(如ESM、ProtBERT)联合,构建多模态预测框架,进一步提高挽救窗口判别的准确性。此外,该数据集的稳定性逻辑也被借鉴到其他生物分子系统(如RNA折叠)的涨落分析中,开启了将分子伴侣概念迁移至核酸结构调控的新方向。部分工作则着力于反演数据集生成规则,试图揭示隐式的分子稳定性几何算法。
以上内容由遇见数据集搜集并总结生成



