five

yushangjinghong/Protcot

收藏
Hugging Face2026-03-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yushangjinghong/Protcot
下载链接
链接失效反馈
官方服务:
资源简介:
# 蛋白质功能预测数据集说明 本目录包含用于蛋白质功能理解和预测的多个数据集,基于 PFUD (Protein Function Understanding Dataset) 构建,并通过不同的检索方法增强了邻居蛋白参考信息。 ## 目录结构 ``` data/upload/ ├── PDD.json # 蛋白质设计数据集 ├── PFUD.json # 蛋白质功能理解数据集(原始版) ├── PSAD.json # 蛋白质亚基分析数据集 ├── PSPD.json # 蛋白质结构预测数据集 ├── aa/ # 基于氨基酸序列检索的数据集 │ ├── PFUD_replaced_with_aa_neighbors.json │ ├── PFUD_replaced_with_aa_neighbors_no_structure.json │ └── evaluation_dataset.json ├── di/ # 基于 3Di 结构检索的数据集 │ ├── PFUD_replaced_with_di_neighbors.json │ ├── PFUD_replaced_with_di_neighbors_no_structure.json │ └── evaluation_dataset.json └── aa+di/ # 混合检索方法数据集 ├── PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json ├── PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json └── evaluation_dataset.json ``` ## 基础数据集 ### 1. PDD.json (169 MB) **Protein Design Dataset - 蛋白质设计数据集** - **样本数**: 107,980 - **任务**: 根据自然语言约束生成蛋白序列和结构 - **字段**: `instruction`, `input`, `output`, `accesion`, `split` - **特点**: 条件生成任务,输入约束条件,输出蛋白序列/结构 ### 2. PFUD.json (529 MB) **Protein Function Understanding Dataset - 蛋白质功能理解数据集(原始版)** - **样本数**: 426,915 - **任务**: 从蛋白序列/结构推断功能、定位、过程等 - **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task` - **特点**: 理解式任务,包含序列和结构信息 ### 3. PSAD.json (330 MB) **Protein Subunit Analysis Dataset - 蛋白质亚基分析数据集** - **样本数**: 250,469 - **任务**: 分析蛋白亚基组成并预测结构 - **字段**: `instruction`, `input`, `output`, `accesion`, `split` - **特点**: 高度模板化,指令统一 ### 4. PSPD.json (249 MB) **Protein Structure Prediction Dataset - 蛋白质结构预测数据集** - **样本数**: 264,486 - **任务**: 从序列预测结构 - **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task` - **特点**: 序列到结构的映射任务 ## 邻居增强数据集 ### aa/ 目录 - 基于氨基酸序列检索 #### PFUD_replaced_with_aa_neighbors.json (1.2 GB) - **样本数**: 386,284 - **检索方法**: 氨基酸序列相似度(amino acid sequence similarity) - **包含信息**: - 目标蛋白的序列和结构 - Top-2 邻居蛋白的序列、结构和功能 - **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task` - **适用场景**: 研究序列保守性与功能关系 #### PFUD_replaced_with_aa_neighbors_no_structure.json (892 MB) - **样本数**: 386,284 - **说明**: 移除了所有结构信息(`< protein structure>` 和 `< 3Di sequence>`) - **保留信息**: 氨基酸序列(`< protein sequence>` 和 `< aa sequence>`) - **适用场景**: 仅使用序列信息的训练 #### evaluation_dataset.json (370 MB) - **样本数**: 386,284 - **格式**: ```json { "accession": "目标蛋白 ID", "predicted_function": "Neighbor 1 功能 + Neighbor 2 功能", "true_function": "目标蛋白真实功能" } ``` - **用途**: 评估基于邻居功能预测目标蛋白功能的准确性 ### di/ 目录 - 基于 3Di 结构检索 #### PFUD_replaced_with_di_neighbors.json (1.2 GB) - **样本数**: 349,931 - **检索方法**: 3Di 结构相似度(3Di structure similarity) - **包含信息**: - 目标蛋白的序列和结构 - Top-2 邻居蛋白的序列、结构和功能 - **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task` - **适用场景**: 研究结构保守性与功能关系 #### PFUD_replaced_with_di_neighbors_no_structure.json (815 MB) - **样本数**: 349,931 - **说明**: 移除了所有结构信息 - **保留信息**: 氨基酸序列 - **适用场景**: 仅使用序列信息的训练 #### evaluation_dataset.json (331 MB) - **样本数**: 349,931 - **格式**: 同 aa/ 目录 - **用途**: 评估基于结构相似邻居的功能预测 ### aa+di/ 目录 - 混合检索方法 #### PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json (1.5 GB) - **样本数**: 399,339 - **检索方法**: 混合方法(weighted),经过质量过滤(top1 >= 20) - **特点**: - 所有样本都包含完整的目标蛋白序列和结构 - 高质量邻居参考(经过严格筛选) - **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task` - **适用场景**: 高质量检索增强训练 #### PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json (1.1 GB) - **样本数**: 399,339 - **说明**: 移除了所有结构信息 - **保留信息**: 氨基酸序列 - **适用场景**: 仅使用序列信息的高质量训练 #### evaluation_dataset.json (585 MB) - **样本数**: 399,339 - **格式**: 同上 - **用途**: 评估基于混合检索方法的功能预测 ## 数据格式说明 ### 训练数据格式 所有邻居增强数据集的标准格式: ```json { "instruction": "任务描述\n\nReference proteins (top-2 nearest, [method]):\nNeighbor 1 accession: XXX\n< aa sequence>...</ aa sequence>\n[< 3Di sequence>...</ 3Di sequence>]\nFunction: ...\n\nNeighbor 2 accession: YYY\n...\n\nUse the above reference proteins together with the target protein information to answer the task.", "input": "具体问题\n< protein sequence>...</ protein sequence>\n[< protein structure>...</ protein structure>]", "output": "目标蛋白的功能描述", "accesion": "afdb_accesion_XXXXX", "split": "train/valid/test", "task": "PFUD" } ``` ### 评估数据格式 所有 evaluation_dataset.json 的格式: ```json { "accession": "afdb_accesion_XXXXX", "predicted_function": "Neighbor 1: [功能描述1]\n\nNeighbor 2: [功能描述2]", "true_function": "目标蛋白的真实功能描述" } ``` ## 数据集对比 | 数据集 | 样本数 | 检索方法 | 包含结构 | 文件大小 | |--------|--------|----------|----------|----------| | aa/PFUD_replaced_with_aa_neighbors.json | 386,284 | 氨基酸序列 | ✓ | 1.2 GB | | aa/PFUD_replaced_with_aa_neighbors_no_structure.json | 386,284 | 氨基酸序列 | ✗ | 892 MB | | di/PFUD_replaced_with_di_neighbors.json | 349,931 | 3Di 结构 | ✓ | 1.2 GB | | di/PFUD_replaced_with_di_neighbors_no_structure.json | 349,931 | 3Di 结构 | ✗ | 815 MB | | aa+di/PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json | 399,339 | 混合(高质量) | ✓ | 1.5 GB | | aa+di/PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json | 399,339 | 混合(高质量) | ✗ | 1.1 GB | ## 使用建议 ### 1. 选择检索方法 - **氨基酸序列检索 (aa/)**: - 优点:覆盖率高(90.48%),序列相似度直观 - 适合:研究序列保守性、进化关系 - **3Di 结构检索 (di/)**: - 优点:能发现序列差异大但结构相似的同源蛋白 - 适合:研究结构-功能关系、结构域分析 - **混合方法 (aa+di/)**: - 优点:质量最高,经过严格筛选 - 适合:高质量训练、生产环境 ### 2. 选择是否包含结构 - **包含结构版本**: - 适合多模态模型训练 - 可以学习序列-结构-功能的联合表示 - **无结构版本**: - 适合纯序列模型 - 文件更小,训练更快 - 更接近实际应用场景(结构信息不总是可用) ### 3. 评估数据集使用 evaluation_dataset.json 可用于: - 评估检索增强方法的有效性 - 对比不同检索方法的性能 - 分析邻居功能与目标功能的相关性 ## 数据质量保证 1. **完整性**: 所有训练数据集 100% 包含目标蛋白的序列信息 2. **邻居质量**: aa+di/ 目录中的数据经过 top1 >= 20 的质量筛选 3. **无重复**: 每个 accession 对应唯一样本(PSAD 除外) 4. **标准化**: 统一的字段结构和数据格式 ## 引用 如果使用这些数据集,请引用原始 PFUD 数据集和相关论文。 ## 更新日志 - 2026-03-09: 创建邻居增强数据集(aa, di, aa+di) - 2026-03-09: 添加无结构版本 - 2026-03-09: 创建评估数据集 ## 联系方式 如有问题或建议,请联系数据集维护者。
提供机构:
yushangjinghong
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作