five

ClarusC64/protein-folding-pathway-instability-v0.1

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ClarusC64/protein-folding-pathway-instability-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en license: mit pretty_name: Protein Folding Pathway Instability task_categories: - tabular-classification tags: - clarusc64 - stability-reasoning - protein - protein-folding - folding-pathway - aggregation - trajectory-analysis - tabular size_categories: - n<1K --- # protein-folding-pathway-instability-v0.1 ## What this dataset does This dataset evaluates whether models can detect instability in protein folding pathways. Each row represents a simplified protein folding scenario defined by structural and interaction proxies. The task is to determine whether the folding pathway is stable or likely to produce misfolding or aggregation. ## Core stability idea Protein folding stability depends on interactions between: - hydrophobic core formation - residue contact density - mutation pressure - folding pathway delay - chaperone dependency - aggregation risk A protein may have a plausible folded structure but still exhibit instability in the folding pathway. ## Prediction target label = 1 → folding pathway instability label = 0 → stable folding pathway ## Row structure Each row contains proxies describing structural stability: - sequence length - hydrophobic core density - residue contact density - local frustration proxy - mutation severity - folding delay proxy - chaperone dependency proxy - thermal stability proxy - aggregation risk proxy ## Evaluation Predictions must follow: scenario_id,prediction Example: PF101,0 PF102,1 Run evaluation: python scorer.py --predictions predictions.csv --truth data/test.csv --output metrics.json Metrics produced: accuracy precision recall f1 confusion matrix ## Structural Note This dataset reflects latent folding stability geometry expressed through observable structural proxies. The generator and underlying stability rules are not included. ## License MIT

This dataset evaluates whether models can detect instability in protein folding pathways. Each row represents a simplified protein folding scenario defined by structural and interaction proxies. The task is to determine whether the folding pathway is stable or likely to produce misfolding or aggregation. Protein folding stability depends on interactions between: hydrophobic core formation, residue contact density, mutation pressure, folding pathway delay, chaperone dependency, and aggregation risk. A protein may have a plausible folded structure but still exhibit instability in the folding pathway. The prediction target is label = 1 → folding pathway instability, label = 0 → stable folding pathway. Each row contains proxies describing structural stability: sequence length, hydrophobic core density, residue contact density, local frustration proxy, mutation severity, folding delay proxy, chaperone dependency proxy, thermal stability proxy, and aggregation risk proxy. Predictions must follow scenario_id,prediction format. Evaluation metrics include accuracy, precision, recall, f1, and confusion matrix. This dataset reflects latent folding stability geometry expressed through observable structural proxies. The generator and underlying stability rules are not included.
提供机构:
ClarusC64
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以蛋白质折叠路径稳定性为核心,通过整合疏水核心形成、残基接触密度、突变压力、折叠路径延迟、分子伴侣依赖性和聚集风险等关键结构及相互作用代理变量,构建了简化但具有代表性的蛋白质折叠场景。每一行数据代表一个特定的折叠情景,涵盖序列长度、疏水核心密度、局部挫折代理等九项代理特征。数据集的构建基于对折叠路径不稳定性几何特征的潜在假设,通过模拟可能引发错误折叠或聚集的条件,生成二元分类标签(稳定/不稳定),从而为模型提供可学习的稳定性判别基准。
特点
数据集具有鲜明的结构与功能导向性,强调蛋白质折叠路径的稳定性而非单一的静态结构评估。其特点在于通过代理变量间接反映折叠过程中的动力学不稳定性,例如分子伴侣依赖性和聚集风险代理。数据规模小巧(n<1K),便于快速验证与迭代。此外,标签定义清晰,区分了稳定折叠路径与可能产生错误折叠或聚集的不稳定路径,且生成规则与潜在稳定性几何结构均未公开,迫使模型从代理特征中自主挖掘规律,增强评估的挑战性与泛化性。
使用方法
使用该数据集时,需按照指定的CSV格式组织预测结果,每行包含场景ID与二元预测值(0或1)。模型需基于提供的九项代理特征,判断折叠路径是否不稳定。评估通过运行专用评分脚本(scorer.py)完成,需输入预测文件(predictions.csv)与标准答案(data/test.csv),输出准确率、精确率、召回率、F1分数及混淆矩阵等关键指标。数据集适用于二分类任务,尤其适合测试模型对蛋白质动态折叠过程中隐性不稳定因素的推理能力。
背景与挑战
背景概述
蛋白质折叠是生命科学中的核心议题,其路径稳定性直接关联蛋白质功能表达与疾病形成机制。protein-folding-pathway-instability-v0.1数据集由ClarusC64研究团队于2024年创建,聚焦于通过结构代理变量(如疏水核心密度、残基接触密度、突变压力、折叠延迟及分子伴侣依赖性等)评估蛋白质折叠路径的稳定性。该数据集以二分类任务为核心,旨在判别折叠路径是否易于引发错误折叠或聚集,为计算生物学提供了简化的基准测试框架。其发布促进了机器学习在蛋白质折叠稳定性推理领域的应用,尤其为评估模型对复杂生物物理过程的判别能力设立了标准化测试场景,对药物设计及蛋白质工程研究具有潜在影响。
当前挑战
蛋白质折叠路径稳定性的判定面临双重挑战。一方面,生物物理层面上,折叠稳定性受疏水核心形成、局部挫抑、聚集风险等多因素耦合影响,传统实验方法难以量化路径动态不稳定性;数据集需以有限的观察代理变量隐含几何稳定性规律,对模型的因果推理能力构成严峻考验。另一方面,数据集构建过程中,如何从高维生物物理模拟中提取代表性代理变量并确保标签的生物学合理性,以及当前不足千条的样本量限制了模型泛化能力,使得精确区分稳定与不稳定路径(尤其是临界状态)成为技术难点,亦需防范模型过拟合于代理变量的表面相关而非根本机制。
常用场景
经典使用场景
该数据集专为评估蛋白质折叠路径稳定性而构建,适用于基于结构代理特征的二分类任务。研究者可将其作为基准,测试模型能否从序列长度、疏水核心密度、残基接触密度等代理变量中识别折叠路径的潜在不稳定性。经典用法包括训练分类器预测折叠路径是否稳定,以及评估模型在区分正常折叠与错误折叠倾向路径上的泛化能力。
解决学术问题
该数据集旨在解决蛋白质折叠领域中一个关键学术难题:即如何从结构代理指标中预判折叠路径的稳定性,而非仅依赖最终折叠结构的稳定性。它挑战了传统研究中忽视路径动态过程的局限,提供了量化突变压力、折叠延迟、分子伴侣依赖性和聚集风险等耦合因素的方法。通过分离稳定与不稳定的折叠路径,数据集推动了蛋白质错误折叠与聚集机制的定量研究,对理解阿尔茨海默病、帕金森病等淀粉样变疾病的分子起源具有重要理论意义。
衍生相关工作
该数据集催生了多个衍生研究方向,包括基于图神经网络的折叠路径稳定性预测模型,以及融合分子动力学模拟与机器学习的不稳定性分类框架。受其启发,研究者构建了结合残基接触网络与突变效应的多任务学习系统,实现了对折叠路径稳定性与聚集风险的联合预测。此外,数据集中的代理特征设计思想已被扩展至蛋白质设计领域,催生了逆向折叠工程中路径稳定性约束的嵌入方法,推动了理性设计稳构蛋白的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作