OPI-Struc
收藏OPI-Struc 数据集详情
数据集概览
OPI-Struc (Open Protein Instructions for Structures) 是一个多模态指令微调数据集,专为 STELLA 项目设计。它通过整合蛋白质三维结构信息与文本指令,扩展了 OPI 范式,使大语言模型能够基于序列和结构两种模态执行蛋白质相关任务。
数据集总规模为 351,183 个训练样本 和 40,993 个测试样本。
注意:该仓库仅提供标注 JSON 文件,蛋白质结构嵌入文件(
embs_pt/)因体积过大而未包含,用户需使用提供的脚本在本地生成。
数据集构成
数据集聚焦两项关键蛋白质任务:
- 功能描述预测 (FP):从蛋白质三维结构预测其生物学功能,包含自由文本问答(FTQA)和多项选择问答(MCQA)两种格式。
- 酶催化反应预测 (EP):从蛋白质三维结构预测酶名称或 EC 编号。
数据来源
- 功能 (FP) 任务:蛋白质条目来自 UniProtKB/Swiss-Prot(2022_04 版本),遵循 Prot2Text 数据划分。三维结构来自 AlphaFold 蛋白质结构数据库 (AFDB)。
- 酶 (EP) 任务:蛋白质条目来自 酶委员会数据集,三维结构来自 RCSB PDB。
数据集统计
| 任务 | 训练集 | 训练规模 | 测试集 | 测试规模 | 评估指标 | 蛋白质来源 |
|---|---|---|---|---|---|---|
| FP<sub>FTQA</sub> | Function<sub>train_FTQA</sub> (+aug) | 248,315 (+49,663) | Function<sub>test_FTQA</sub> <br> Function<sub>test_FTQA_v2401</sub> <br> Function<sub>test_FTQA_trunc90</sub> | 4,203 <br> 270 <br> 4,203 | BLEU-4, BERT-score, ROUGE | AFDB |
| FP<sub>MCQA</sub> | Function<sub>train_MCQA</sub> | 24,000 | Function<sub>test_MCQA_1X</sub> <br> Function<sub>test_MCQA_4X</sub> | 4,203 <br> 16,812 | Accuracy | AFDB |
| EP | Enzyme<sub>train</sub> | 29,205 | Enzyme<sub>test</sub> <br> Enzyme<sub>test_EC_number</sub> | 5,651 <br> 5,651 | Accuracy | PDB |
测试集说明:
- Function<sub>test_FTQA_v2401</sub>:基于 Swiss-Prot 2024_01 版本构建的时间分布外测试集,用于评估对新蛋白质的零样本泛化能力。
- Function<sub>test_FTQA_trunc90</sub>:结构退化测试集,蛋白质结构被截断至原始残基的 90%,用于评估对不完整结构的鲁棒性。
- Function<sub>test_MCQA_1X</sub> vs. Function<sub>test_MCQA_4X</sub>:1X 版本选项无排列,4X 版本选项有排列(每个问题 4 种顺序)。
数据格式
FP (功能描述预测) — FTQA 格式
每个条目遵循 LLaVA 的对话格式:
json { "swissprot_id": "P07412", "sequence": "GFLTAEEKGLVNGLWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSS...", "AFDB_id": "AF-P07412-F1-model_v4", "conversations": [ { "from": "human", "value": "<structure> Can you furnish a comprehensive description outlining the function associated with the protein?" }, { "from": "gpt", "value": "Involved in oxygen transport from the lung to the various peripheral tissues." } ] }
FP — MCQA 格式
json { "swissprot_id": "P62877", "sequence": "MAAAMDVDTPSGTNSGAGKKRFEVKKWNAVALWAWDIVVDNCAICRNHIM...", "AFDB_id": "AF-P62877-F1-model_v4", "conversations": [ { "from": "human", "value": "<structure> What are the main functions of this protein? A. [option A text] B. [option B text] C. [option C text] D. [option D text]" }, { "from": "gpt", "value": "A" } ] }
EP (酶催化反应预测) 格式
json { "PDB_id": "2pmo.X", "conversations": [ { "from": "human", "value": "<structure> Please share the enzyme terminology for this protein." }, { "from": "gpt", "value": "non-specific serine/threonine protein kinase" } ] }
EP — EC 编号格式(仅测试集)
json { "PDB_id": "4xi6.A", "EC_number": "2.3.2.27" }
关键字段
| 字段 | 描述 |
|---|---|
swissprot_id |
UniProtKB/Swiss-Prot 登录号 |
AFDB_id |
AlphaFold 数据库结构标识符 |
PDB_id |
PDB 结构标识符及链信息 |
sequence |
蛋白质的氨基酸序列 |
conversations |
多轮对话,<structure> 标记结构嵌入插入位置 |
EC_number |
酶委员会分类编号 |
许可协议
该数据集采用 cc-by-nc-4.0 许可协议。




