Protcot
收藏Hugging Face2026-03-09 更新2026-03-10 收录
下载链接:
https://huggingface.co/datasets/yushangjinghong/Protcot
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是一个用于蛋白质功能理解和预测的综合集合,基于PFUD(蛋白质功能理解数据集)构建,并通过不同的检索方法增强了邻居蛋白参考信息。数据集包含多个子集,分为基础数据集和邻居增强数据集两大类。基础数据集包括PDD(蛋白质设计数据集,107,980样本)、PFUD(原始蛋白质功能理解数据集,426,915样本)、PSAD(蛋白质亚基分析数据集,250,469样本)和PSPD(蛋白质结构预测数据集,264,486样本),每个数据集针对不同的蛋白质相关任务设计,如条件生成、功能推断、亚基分析和结构预测。邻居增强数据集则通过氨基酸序列相似度(aa/)、3Di结构相似度(di/)或混合方法(aa+di/)检索邻居蛋白信息,进一步丰富了数据集的内容和应用场景。所有数据集均采用统一的JSON格式,包含instruction、input、output、accesion、split和task等字段,部分数据集还提供了无结构版本和专门的评估数据集。该数据集适用于蛋白质功能预测、结构分析、多模态学习等研究领域,并提供了不同检索方法和是否包含结构信息的选择建议,以满足不同研究需求。
创建时间:
2026-03-04
原始信息汇总
数据集概述
基本信息
- 数据集名称: 蛋白质功能预测数据集
- 托管地址: https://huggingface.co/datasets/yushangjinghong/Protcot
- 核心基础: 基于 PFUD (Protein Function Understanding Dataset) 构建
数据集构成
本数据集包含用于蛋白质功能理解和预测的多个数据集,并通过不同的检索方法增强了邻居蛋白参考信息。
基础数据集
-
PDD.json (蛋白质设计数据集)
- 样本数: 107,980
- 任务: 根据自然语言约束生成蛋白序列和结构
- 关键字段:
instruction,input,output,accesion,split - 特点: 条件生成任务
-
PFUD.json (蛋白质功能理解数据集 - 原始版)
- 样本数: 426,915
- 任务: 从蛋白序列/结构推断功能、定位、过程等
- 关键字段:
instruction,input,output,accesion,split,task - 特点: 理解式任务,包含序列和结构信息
-
PSAD.json (蛋白质亚基分析数据集)
- 样本数: 250,469
- 任务: 分析蛋白亚基组成并预测结构
- 关键字段:
instruction,input,output,accesion,split - 特点: 高度模板化,指令统一
-
PSPD.json (蛋白质结构预测数据集)
- 样本数: 264,486
- 任务: 从序列预测结构
- 关键字段:
instruction,input,output,accesion,split,task - 特点: 序列到结构的映射任务
邻居增强数据集
基于基础数据集,通过不同检索方法引入Top-2邻居蛋白信息构建了增强数据集,主要分为三个子目录:
aa/ 目录 (基于氨基酸序列检索)
- PFUD_replaced_with_aa_neighbors.json
- 样本数: 386,284
- 检索方法: 氨基酸序列相似度
- 包含目标蛋白及邻居的序列和结构信息。
- PFUD_replaced_with_aa_neighbors_no_structure.json
- 样本数: 386,284
- 说明: 移除了所有结构信息,仅保留氨基酸序列。
- evaluation_dataset.json
- 样本数: 386,284
- 用途: 评估基于邻居功能预测目标蛋白功能的准确性。
di/ 目录 (基于 3Di 结构检索)
- PFUD_replaced_with_di_neighbors.json
- 样本数: 349,931
- 检索方法: 3Di 结构相似度
- 包含目标蛋白及邻居的序列和结构信息。
- PFUD_replaced_with_di_neighbors_no_structure.json
- 样本数: 349,931
- 说明: 移除了所有结构信息,仅保留氨基酸序列。
- evaluation_dataset.json
- 样本数: 349,931
- 用途: 评估基于结构相似邻居的功能预测。
aa+di/ 目录 (混合检索方法)
- PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json
- 样本数: 399,339
- 检索方法: 混合加权方法,经过质量过滤 (top1 >= 20)。
- 特点: 高质量邻居参考,包含完整序列和结构。
- PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json
- 样本数: 399,339
- 说明: 移除了所有结构信息,仅保留氨基酸序列。
- evaluation_dataset.json
- 样本数: 399,339
- 用途: 评估基于混合检索方法的功能预测。
数据格式
训练数据格式
标准字段包括:instruction, input, output, accesion, split, task。instruction 中包含任务描述和邻居蛋白参考信息。
评估数据格式
标准字段包括:accession, predicted_function, true_function。用于对比邻居预测功能与真实功能。
数据集对比摘要
| 数据集 | 样本数 | 检索方法 | 包含结构 | 文件大小 |
|---|---|---|---|---|
| aa/PFUD_replaced_with_aa_neighbors.json | 386,284 | 氨基酸序列 | ✓ | 1.2 GB |
| aa/PFUD_replaced_with_aa_neighbors_no_structure.json | 386,284 | 氨基酸序列 | ✗ | 892 MB |
| di/PFUD_replaced_with_di_neighbors.json | 349,931 | 3Di 结构 | ✓ | 1.2 GB |
| di/PFUD_replaced_with_di_neighbors_no_structure.json | 349,931 | 3Di 结构 | ✗ | 815 MB |
| aa+di/PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json | 399,339 | 混合(高质量) | ✓ | 1.5 GB |
| aa+di/PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json | 399,339 | 混合(高质量) | ✗ | 1.1 GB |
使用建议
- 检索方法选择:
- 氨基酸序列检索 (aa/): 适合研究序列保守性、进化关系。
- 3Di 结构检索 (di/): 适合研究结构-功能关系、结构域分析。
- 混合方法 (aa+di/): 质量最高,适合高质量训练或生产环境。
- 结构信息选择:
- 包含结构版本: 适合多模态模型训练,学习序列-结构-功能联合表示。
- 无结构版本: 适合纯序列模型,文件更小,训练更快。
- 评估数据集: 用于评估检索增强方法的有效性、对比不同检索方法的性能。
数据质量保证
- 完整性: 所有训练数据集 100% 包含目标蛋白的序列信息。
- 邻居质量: aa+di/ 目录中的数据经过 top1 >= 20 的质量筛选。
- 无重复: 每个 accession 对应唯一样本(PSAD 除外)。
- 标准化: 统一的字段结构和数据格式。
搜集汇总
数据集介绍

构建方式
在蛋白质功能预测这一前沿领域,Protcot数据集通过创新的检索增强方法构建而成。其核心基础是蛋白质功能理解数据集,在此基础上,研究者系统地引入了基于氨基酸序列相似度、三维结构指纹以及两者混合的检索策略,为目标蛋白质匹配功能已知的邻近参考蛋白。这一构建过程不仅整合了海量的序列与结构信息,还通过严格的质控筛选,例如设定相似度阈值,确保了参考信息的可靠性与相关性,从而形成了一个多层次、多视角的蛋白质功能知识库。
特点
该数据集最显著的特征在于其多层次、可配置的架构设计。它并非单一静态集合,而是提供了一系列基于不同检索范式和信息模态的衍生版本,包括纯序列、序列与结构结合以及高质量混合检索版本。这种设计允许研究者根据具体模型的能力和研究目标,灵活选择输入信息的维度。此外,数据集严格区分了训练与评估用途,并提供了标准化的评估集,便于量化检索增强策略对功能预测性能的贡献,体现了其面向实际研究需求的实用性。
使用方法
针对不同的研究场景,该数据集提供了明确的使用路径。若关注蛋白质序列与功能的进化关联,可采用基于氨基酸序列检索的版本;若旨在探究蛋白质三维结构对功能的决定性作用,则可选用基于三维结构指纹的版本。对于追求最高预测可靠性的应用,经过严格过滤的混合检索版本是理想选择。使用者需根据所选版本加载对应的JSON文件,依据其标准化的指令-输入-输出格式进行模型训练或微调,并利用独立的评估数据集对模型性能进行客观衡量。
背景与挑战
背景概述
蛋白质功能预测是计算生物学与生物信息学的核心议题,旨在从蛋白质的氨基酸序列或三维结构中推断其生物学功能。随着AlphaFold等工具在结构预测领域取得突破,如何将序列、结构信息与功能注释高效关联,成为该领域新的研究前沿。在此背景下,Protcot数据集应运而生,它基于PFUD(蛋白质功能理解数据集)构建,并通过整合基于氨基酸序列相似度、3Di结构相似度以及混合方法的检索策略,引入了邻居蛋白的参考信息,从而形成了一个用于蛋白质功能理解与预测的大规模、多任务基准。该数据集由相关研究团队于2026年发布,其核心研究问题聚焦于探索序列保守性、结构保守性与功能之间的复杂映射关系,旨在推动蛋白质功能预测模型向更精准、更具解释性的方向发展。
当前挑战
该数据集致力于解决蛋白质功能预测这一领域问题的核心挑战,即如何克服‘序列-功能’与‘结构-功能’映射中存在的巨大复杂性。蛋白质功能具有多层次、多方面的特性,且相似序列或结构可能对应不同功能,反之亦然,这构成了模型泛化与准确预测的根本障碍。在数据集构建过程中,研究者面临多重挑战:首先,需要从海量蛋白质数据库中筛选、整合高质量且注释可靠的样本,确保数据源的权威性与一致性;其次,设计并实施基于序列和结构的邻居检索算法,以平衡检索的覆盖率与相关性,例如确保高质量邻居(如top1 >= 20)的筛选标准;最后,构建统一、标准化的多模态数据格式,以支持包含或不包含结构信息的多种训练与评估场景,这对数据工程的处理能力提出了较高要求。
常用场景
经典使用场景
在计算生物学领域,蛋白质功能预测是连接序列信息与生物活性的关键桥梁。Protcot数据集通过整合氨基酸序列与三维结构信息,并引入基于相似性检索的邻居蛋白参考,为机器学习模型提供了丰富的上下文学习范例。其经典使用场景在于训练多模态模型,使其能够依据目标蛋白的序列或结构特征,结合进化上相关的邻居蛋白功能注释,精准推断未知蛋白质的分子功能、细胞定位及参与的生物过程。
解决学术问题
该数据集有效应对了蛋白质组学中“序列-功能鸿沟”的核心挑战。它通过系统构建的大规模、多任务指令数据集,为解决蛋白质功能注释自动化、理解结构保守性与功能关系、以及探索远程同源蛋白的功能转移等经典学术问题提供了标准化基准。其意义在于推动了蛋白质语言模型与结构感知模型的发展,使得从海量序列数据中自动化、高精度地挖掘功能知识成为可能,显著加速了功能基因组学的研究进程。
衍生相关工作
以Protcot数据集为基础,已催生了一系列聚焦于蛋白质智能理解的前沿工作。这些工作主要围绕蛋白质大型语言模型的指令微调、蛋白质多模态表示学习以及检索增强的蛋白质功能预测框架展开。具体而言,研究人员利用其丰富的指令-输出对训练模型,使其能理解和执行复杂的蛋白质分析任务;同时,其提供的序列与结构邻居信息,为发展结合外部知识库的蛋白质预测模型提供了关键的训练与评估资源。
以上内容由遇见数据集搜集并总结生成



