yushangjinghong/Protcot
收藏Hugging Face2026-03-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yushangjinghong/Protcot
下载链接
链接失效反馈官方服务:
资源简介:
# 蛋白质功能预测数据集说明
本目录包含用于蛋白质功能理解和预测的多个数据集,基于 PFUD (Protein Function Understanding Dataset) 构建,并通过不同的检索方法增强了邻居蛋白参考信息。
## 目录结构
```
data/upload/
├── PDD.json # 蛋白质设计数据集
├── PFUD.json # 蛋白质功能理解数据集(原始版)
├── PSAD.json # 蛋白质亚基分析数据集
├── PSPD.json # 蛋白质结构预测数据集
├── aa/ # 基于氨基酸序列检索的数据集
│ ├── PFUD_replaced_with_aa_neighbors.json
│ ├── PFUD_replaced_with_aa_neighbors_no_structure.json
│ └── evaluation_dataset.json
├── di/ # 基于 3Di 结构检索的数据集
│ ├── PFUD_replaced_with_di_neighbors.json
│ ├── PFUD_replaced_with_di_neighbors_no_structure.json
│ └── evaluation_dataset.json
└── aa+di/ # 混合检索方法数据集
├── PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json
├── PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json
└── evaluation_dataset.json
```
## 基础数据集
### 1. PDD.json (169 MB)
**Protein Design Dataset - 蛋白质设计数据集**
- **样本数**: 107,980
- **任务**: 根据自然语言约束生成蛋白序列和结构
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`
- **特点**: 条件生成任务,输入约束条件,输出蛋白序列/结构
### 2. PFUD.json (529 MB)
**Protein Function Understanding Dataset - 蛋白质功能理解数据集(原始版)**
- **样本数**: 426,915
- **任务**: 从蛋白序列/结构推断功能、定位、过程等
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task`
- **特点**: 理解式任务,包含序列和结构信息
### 3. PSAD.json (330 MB)
**Protein Subunit Analysis Dataset - 蛋白质亚基分析数据集**
- **样本数**: 250,469
- **任务**: 分析蛋白亚基组成并预测结构
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`
- **特点**: 高度模板化,指令统一
### 4. PSPD.json (249 MB)
**Protein Structure Prediction Dataset - 蛋白质结构预测数据集**
- **样本数**: 264,486
- **任务**: 从序列预测结构
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task`
- **特点**: 序列到结构的映射任务
## 邻居增强数据集
### aa/ 目录 - 基于氨基酸序列检索
#### PFUD_replaced_with_aa_neighbors.json (1.2 GB)
- **样本数**: 386,284
- **检索方法**: 氨基酸序列相似度(amino acid sequence similarity)
- **包含信息**:
- 目标蛋白的序列和结构
- Top-2 邻居蛋白的序列、结构和功能
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task`
- **适用场景**: 研究序列保守性与功能关系
#### PFUD_replaced_with_aa_neighbors_no_structure.json (892 MB)
- **样本数**: 386,284
- **说明**: 移除了所有结构信息(`< protein structure>` 和 `< 3Di sequence>`)
- **保留信息**: 氨基酸序列(`< protein sequence>` 和 `< aa sequence>`)
- **适用场景**: 仅使用序列信息的训练
#### evaluation_dataset.json (370 MB)
- **样本数**: 386,284
- **格式**:
```json
{
"accession": "目标蛋白 ID",
"predicted_function": "Neighbor 1 功能 + Neighbor 2 功能",
"true_function": "目标蛋白真实功能"
}
```
- **用途**: 评估基于邻居功能预测目标蛋白功能的准确性
### di/ 目录 - 基于 3Di 结构检索
#### PFUD_replaced_with_di_neighbors.json (1.2 GB)
- **样本数**: 349,931
- **检索方法**: 3Di 结构相似度(3Di structure similarity)
- **包含信息**:
- 目标蛋白的序列和结构
- Top-2 邻居蛋白的序列、结构和功能
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task`
- **适用场景**: 研究结构保守性与功能关系
#### PFUD_replaced_with_di_neighbors_no_structure.json (815 MB)
- **样本数**: 349,931
- **说明**: 移除了所有结构信息
- **保留信息**: 氨基酸序列
- **适用场景**: 仅使用序列信息的训练
#### evaluation_dataset.json (331 MB)
- **样本数**: 349,931
- **格式**: 同 aa/ 目录
- **用途**: 评估基于结构相似邻居的功能预测
### aa+di/ 目录 - 混合检索方法
#### PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json (1.5 GB)
- **样本数**: 399,339
- **检索方法**: 混合方法(weighted),经过质量过滤(top1 >= 20)
- **特点**:
- 所有样本都包含完整的目标蛋白序列和结构
- 高质量邻居参考(经过严格筛选)
- **字段**: `instruction`, `input`, `output`, `accesion`, `split`, `task`
- **适用场景**: 高质量检索增强训练
#### PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json (1.1 GB)
- **样本数**: 399,339
- **说明**: 移除了所有结构信息
- **保留信息**: 氨基酸序列
- **适用场景**: 仅使用序列信息的高质量训练
#### evaluation_dataset.json (585 MB)
- **样本数**: 399,339
- **格式**: 同上
- **用途**: 评估基于混合检索方法的功能预测
## 数据格式说明
### 训练数据格式
所有邻居增强数据集的标准格式:
```json
{
"instruction": "任务描述\n\nReference proteins (top-2 nearest, [method]):\nNeighbor 1 accession: XXX\n< aa sequence>...</ aa sequence>\n[< 3Di sequence>...</ 3Di sequence>]\nFunction: ...\n\nNeighbor 2 accession: YYY\n...\n\nUse the above reference proteins together with the target protein information to answer the task.",
"input": "具体问题\n< protein sequence>...</ protein sequence>\n[< protein structure>...</ protein structure>]",
"output": "目标蛋白的功能描述",
"accesion": "afdb_accesion_XXXXX",
"split": "train/valid/test",
"task": "PFUD"
}
```
### 评估数据格式
所有 evaluation_dataset.json 的格式:
```json
{
"accession": "afdb_accesion_XXXXX",
"predicted_function": "Neighbor 1: [功能描述1]\n\nNeighbor 2: [功能描述2]",
"true_function": "目标蛋白的真实功能描述"
}
```
## 数据集对比
| 数据集 | 样本数 | 检索方法 | 包含结构 | 文件大小 |
|--------|--------|----------|----------|----------|
| aa/PFUD_replaced_with_aa_neighbors.json | 386,284 | 氨基酸序列 | ✓ | 1.2 GB |
| aa/PFUD_replaced_with_aa_neighbors_no_structure.json | 386,284 | 氨基酸序列 | ✗ | 892 MB |
| di/PFUD_replaced_with_di_neighbors.json | 349,931 | 3Di 结构 | ✓ | 1.2 GB |
| di/PFUD_replaced_with_di_neighbors_no_structure.json | 349,931 | 3Di 结构 | ✗ | 815 MB |
| aa+di/PFUD_replaced_with_neighbors_filtered_top1ge20_fixed.json | 399,339 | 混合(高质量) | ✓ | 1.5 GB |
| aa+di/PFUD_replaced_with_neighbors_filtered_top1ge20_fixed_no_structure.json | 399,339 | 混合(高质量) | ✗ | 1.1 GB |
## 使用建议
### 1. 选择检索方法
- **氨基酸序列检索 (aa/)**:
- 优点:覆盖率高(90.48%),序列相似度直观
- 适合:研究序列保守性、进化关系
- **3Di 结构检索 (di/)**:
- 优点:能发现序列差异大但结构相似的同源蛋白
- 适合:研究结构-功能关系、结构域分析
- **混合方法 (aa+di/)**:
- 优点:质量最高,经过严格筛选
- 适合:高质量训练、生产环境
### 2. 选择是否包含结构
- **包含结构版本**:
- 适合多模态模型训练
- 可以学习序列-结构-功能的联合表示
- **无结构版本**:
- 适合纯序列模型
- 文件更小,训练更快
- 更接近实际应用场景(结构信息不总是可用)
### 3. 评估数据集使用
evaluation_dataset.json 可用于:
- 评估检索增强方法的有效性
- 对比不同检索方法的性能
- 分析邻居功能与目标功能的相关性
## 数据质量保证
1. **完整性**: 所有训练数据集 100% 包含目标蛋白的序列信息
2. **邻居质量**: aa+di/ 目录中的数据经过 top1 >= 20 的质量筛选
3. **无重复**: 每个 accession 对应唯一样本(PSAD 除外)
4. **标准化**: 统一的字段结构和数据格式
## 引用
如果使用这些数据集,请引用原始 PFUD 数据集和相关论文。
## 更新日志
- 2026-03-09: 创建邻居增强数据集(aa, di, aa+di)
- 2026-03-09: 添加无结构版本
- 2026-03-09: 创建评估数据集
## 联系方式
如有问题或建议,请联系数据集维护者。
提供机构:
yushangjinghong



