bfn-confidence-general-proteins
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/liubuing/bfn-confidence-general-proteins
下载链接
链接失效反馈官方服务:
资源简介:
BFN Confidence General Proteins (V6) 是一个用于微调贝叶斯流网络(BFN)在通用单链蛋白质结构上置信度头的数据集,以AlphaFold2作为教师模型。该数据集是最大版本,通过合并V5版本(包含通用蛋白质和疾病蛋白质)和脑疾病蛋白质数据集(涵盖26个类别)并去除重复条目构建而成。数据集包含2,032个条目,其中训练集有1,625条(约2.8 GB),验证集有407条(约667 MB),总计约3.5 GB。子集包括脑疾病蛋白质(训练713条,验证170条)和内在无序蛋白质(IDP,训练32条,验证5条),在合并过程中移除了240个重复项。每个条目以LMDB格式存储,为pickled字典,包含以下字段:pdb_id(PDB标识符字符串)、sequence(氨基酸序列字符串)、batch(预处理的BFN兼容输入字典)、af2_plddt(每个残基的pLDDT分数列表,范围[0,1])、af2_iptm(ipTM分数浮点数)、af2_pae_matrix(PAE矩阵,为L×L的浮点数列表列表)。所有置信度分数均来自AlphaFold2的预测。数据集适用于蛋白质结构置信度预测任务,特别是用于训练或微调BFN模型的置信度头。数据源基于与ColabFold(AlphaFold2)预测匹配的PDB结构。
BFN Confidence General Proteins (V6) is a dataset for fine-tuning Bayesian Flow Networks (BFN) on confidence heads for general single-chain protein structures, using AlphaFold2 as the teacher model. V6 is the largest version of this dataset, constructed by merging V5 (which includes general proteins and disease proteins) and brain disease proteins (covering 26 categories) and removing duplicate entries. The dataset contains 2,032 entries, with a training set of 1,625 entries (approximately 2.8 GB) and a validation set of 407 entries (approximately 667 MB), totaling about 3.5 GB. Subsets include brain disease proteins (713 training, 170 validation) and intrinsically disordered proteins (IDP, 32 training, 5 validation), with 240 duplicates removed during merging. Each entry is stored in LMDB format as a pickled dictionary, containing the following fields: pdb_id (PDB identifier string), sequence (amino acid sequence string), batch (preprocessed BFN-compatible input dictionary), af2_plddt (list of pLDDT scores per residue, range [0,1]), af2_iptm (ipTM score as a float), and af2_pae_matrix (PAE matrix as a list of lists of floats, L×L). All confidence scores are derived from AlphaFold2 predictions. The dataset is suitable for protein structure confidence prediction tasks, particularly for training or fine-tuning confidence heads of BFN models. The data source is based on PDB structures matched with ColabFold (AlphaFold2) predictions.
创建时间:
2026-05-16
搜集汇总
数据集介绍

构建方式
该数据集基于Bayesian Flow Network框架,旨在微调蛋白质结构置信度预测头。其构建以AlphaFold2作为教师模型,从蛋白质数据库(PDB)中筛选单链蛋白质结构,并与ColabFold(AlphaFold2实现的预测结果)进行匹配。V6版本在V5基础上新增了脑疾病相关蛋白质(涵盖26个疾病类别),并与原有通用蛋白质及疾病蛋白质数据合并后去重,最终得到训练集1625条、验证集407条,总计2032条高质量条目。
使用方法
数据集通过专用接口加载,推荐使用`antibodydesignbfn`库中的`ConfidenceRegressionDataset`类读取LMDB文件。用户需指定LMDB数据路径,即可获得封装好的训练样本。每一批次返回预处理的特征张量及对应的AlphaFold2置信度标签(pLDDT、ipTM、PAE矩阵),可直接用于回归任务训练。该设计降低了数据加载与预处理门槛,便于快速集成至BFN模型微调流程。
背景与挑战
背景概述
在蛋白质结构预测领域,置信度评估是衡量预测模型可靠性的关键环节。随着深度生成模型如Bayesian Flow Network(BFN)的兴起,针对蛋白质结构预测结果的置信度头(confidence heads)微调成为提升模型实用性的重要方向。BFN Confidence General Proteins V6数据集由研究团队于近期构建,整合了通用单链蛋白质结构与脑疾病相关蛋白(涵盖26个亚类),并基于AlphaFold2作为教师模型提供pLDDT、ipTM及PAE矩阵等置信度标签。数据集共包含2,032个条目,规模为当前最大版本,旨在为BFN置信度头的微调提供高质量训练基础,推动蛋白质结构预测置信度评估的标准化与精准化。
当前挑战
该数据集面临多重挑战。首先,在领域问题层面,蛋白质结构预测的置信度评估长期受限于标签噪声与模型泛化能力,尤其是对 intrinsically disordered proteins(IDP)及脑疾病相关蛋白等复杂样本,传统指标如pLDDT可能无法充分反映预测不确定性,亟需更鲁棒的置信度框架。其次,在数据集构建过程中,V6版本需合并来自不同来源的子集(脑疾病蛋白、通用蛋白等),并处理因冗余导致的数据偏差,共移除240个重复条目;同时,仅依赖AlphaFold2作为教师模型可能引入系统性偏差,且单链蛋白场景无法覆盖多聚体与抗体等更复杂的拓扑结构,限制了数据集的适用边界。
常用场景
经典使用场景
BFN Confidence General Proteins V6数据集专为贝叶斯流网络(BFN)置信度头的微调而设计,其核心应用场景在于利用AlphaFold2作为教师模型,对通用单链蛋白质结构进行置信度预测。该数据集整合了来自PDB的结构数据与ColabFold的AlphaFold2预测结果,提供包括pLDDT、ipTM和PAE矩阵在内的经典置信度指标,为蛋白质结构预测模型的校准与评估提供了高质量的训练与验证基础。研究者可通过预定义的ConfidenceRegressionDataset接口便捷调用,在蛋白质结构建模、置信度回归与不确定性量化任务中实现模型性能的优化与泛化能力的提升。
解决学术问题
该数据集有效解决了蛋白质结构预测领域中置信度评估缺乏高质量监督信号的核心问题。传统方法多依赖单一结构质量指标,难以全面刻画预测结果的可靠性。BFN Confidence General Proteins V6通过整合AlphaFold2提供的多维度置信度标签,结合贝叶斯流网络框架,使模型能够学习从序列到结构置信度的复杂映射关系。其涵盖了普通蛋白质、脑疾病相关蛋白及固有无序蛋白等多样化样本,显著提升了模型在罕见构象、疾病相关突变及柔性区域等边缘情况下的置信度预测鲁棒性,推动了蛋白质结构不确定性量化学术研究的前沿进展。
实际应用
在实际应用中,该数据集驱动的BFN置信度预测模型可嵌入药物研发与生物工程流水线,为蛋白质结构预测结果提供实时可靠性评估。例如,在抗体设计领域,模型可辅助筛选高置信度的抗原-抗体结合构象,提升分子对接与后续实验验证的成功率;在脑疾病机制研究中,通过对疾病相关蛋白结构预测的置信度分析,研究者能优先聚焦于高可靠性的结构区域进行功能注释与突变影响预测。此外,该数据集对固有无序蛋白的支持拓展了其在柔性结构生物学中的应用边界,为基于结构的药物靶点发现与蛋白质工程化改造提供了可量化的决策依据。
数据集最近研究
最新研究方向
在蛋白质结构预测与疾病关联研究的前沿,BFN Confidence General Proteins V6数据集聚焦于利用贝叶斯流网络(BFN)置信度预测头对单链蛋白质结构进行微调,以AlphaFold2作为教师模型。最新版本V6整合了脑疾病蛋白(涵盖26个亚类)与内在无序蛋白(IDP)数据,通过去重策略实现了从V5的1,149条到2,032条记录的显著扩充。这一迭代不仅强化了模型在脑疾病相关蛋白上的置信度估计能力,如pLDDT、ipTM和PAE矩阵的精确预测,还为理解阿尔茨海默病、帕金森病等神经退行性疾病的分子机制提供了关键工具。该数据集与AlphaFlow2等生成模型深度融合,推动了从结构预测到功能注释的闭环研究,尤其在个性化医疗和抗体设计领域展现出巨大潜力,代表了蛋白质计算生物学向高精度、疾病特异性方向演进的重要里程碑。
以上内容由遇见数据集搜集并总结生成



