five

OPI-Struc

收藏
Hugging Face2026-05-11 更新2026-05-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/OPI-Struc
下载链接
链接失效反馈
官方服务:
资源简介:
OPI-Struc(用于结构的开放蛋白质指令)是一个专为STELLA项目设计的多模态指令微调数据集。它扩展了开放蛋白质指令范式,通过整合蛋白质3D结构信息与文本指令,使大语言模型能够执行基于蛋白质序列和结构模态的任务。数据集重点关注两个核心蛋白质相关任务:功能描述预测(FP)和酶催化反应预测(EP)。功能描述预测任务要求从蛋白质3D结构中预测其生物学功能,并以自由文本问答和多项选择问答两种格式提供;酶催化反应预测任务则要求从蛋白质3D结构中预测酶的名称或EC编号。数据集的构建整合了多个权威生物信息学资源:FP任务的蛋白质条目来源于UniProtKB/Swiss-Prot数据库(2022_04版),并遵循Prot2Text的数据划分,其对应的3D结构来自AlphaFold蛋白质结构数据库;EP任务的蛋白质条目来源于酶委员会数据集,其3D结构来自RCSB PDB。每个数据样本都格式化为多轮对话(遵循指令微调格式),其中包含一个特殊的`<structure>`标记,用于指示蛋白质结构嵌入应插入的位置。数据集总规模为351,183个训练样本和40,993个测试样本,并提供了详细的子集划分统计:FP_FTQA训练集包含248,315个样本及49,663个增强样本;FP_MCQA训练集包含24,000个样本;EP训练集包含29,205个样本。测试集包括多个变体,例如用于评估模型在未见过的蛋白质上零样本泛化能力的时间分布外测试集(Function_test_FTQA_v2401),以及用于评估模型对不完整结构鲁棒性的结构退化测试集(Function_test_FTQA_trunc90)。数据集提供注释JSON文件,按支持的蛋白质编码器(ESM3、Prot2Text、SaProt)组织,但预计算的蛋白质结构嵌入文件需用户根据指南在本地生成。该数据集适用于蛋白质功能注释、酶分类、多模态大语言模型在生命科学领域的训练与评估等任务。

OPI-Struc (Open Protein Instructions for Structure) is a multimodal instruction-tuning dataset specifically designed for the STELLA project. It extends the OPI paradigm by integrating protein 3D structure information with textual instructions, enabling large language models to perform tasks based on protein sequence and structure modalities. The dataset focuses on two core protein-related tasks: Function Prediction (FP) and Enzyme Prediction (EP). The Function Prediction task requires predicting the biological function of a protein from its 3D structure, provided in both Free-Text Question Answering (FTQA) and Multiple-Choice Question Answering (MCQA) formats. The Enzyme Prediction task requires predicting the enzyme name or EC number from the proteins 3D structure. The dataset construction integrates multiple authoritative bioinformatics resources: protein entries for the FP task are sourced from the UniProtKB/Swiss-Prot database (version 2022_04), following the data split of Prot2Text, with corresponding 3D structures from the AlphaFold Protein Structure Database; protein entries for the EP task are sourced from the Enzyme Commission dataset, with 3D structures from RCSB PDB. Each data sample is formatted as a multi-turn dialogue (following the instruction-tuning format) and includes a special `<structure>` token indicating where the protein structure embedding should be inserted. The total dataset size is 351,183 training samples and 40,993 test samples, with detailed subset statistics: the FP_FTQA training set contains 248,315 samples plus 49,663 augmented samples; the FP_MCQA training set contains 24,000 samples; the EP training set contains 29,205 samples. The test set includes multiple variants, such as a temporal out-of-distribution test set (Function_test_FTQA_v2401) for evaluating zero-shot generalization on unseen proteins, and a structurally degraded test set (Function_test_FTQA_trunc90) for assessing model robustness to incomplete structures. The repository provides annotated JSON files organized by supported protein encoders (ESM3, Prot2Text, SaProt), but pre-computed protein structure embeddings are not included due to their large size; users need to download raw protein structure files locally and generate embeddings using scripts from the STELLA project. The dataset is suitable for tasks such as protein function annotation, enzyme classification, and training and evaluation of multimodal large language models in life sciences.
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2026-05-11
原始信息汇总

OPI-Struc 数据集详情

数据集概览

OPI-Struc (Open Protein Instructions for Structures) 是一个多模态指令微调数据集,专为 STELLA 项目设计。它通过整合蛋白质三维结构信息与文本指令,扩展了 OPI 范式,使大语言模型能够基于序列和结构两种模态执行蛋白质相关任务。

数据集总规模为 351,183 个训练样本40,993 个测试样本

注意:该仓库仅提供标注 JSON 文件,蛋白质结构嵌入文件(embs_pt/)因体积过大而未包含,用户需使用提供的脚本在本地生成。

数据集构成

数据集聚焦两项关键蛋白质任务:

  • 功能描述预测 (FP):从蛋白质三维结构预测其生物学功能,包含自由文本问答(FTQA)和多项选择问答(MCQA)两种格式。
  • 酶催化反应预测 (EP):从蛋白质三维结构预测酶名称或 EC 编号。

数据来源

数据集统计

任务 训练集 训练规模 测试集 测试规模 评估指标 蛋白质来源
FP<sub>FTQA</sub> Function<sub>train_FTQA</sub> (+aug) 248,315 (+49,663) Function<sub>test_FTQA</sub> <br> Function<sub>test_FTQA_v2401</sub> <br> Function<sub>test_FTQA_trunc90</sub> 4,203 <br> 270 <br> 4,203 BLEU-4, BERT-score, ROUGE AFDB
FP<sub>MCQA</sub> Function<sub>train_MCQA</sub> 24,000 Function<sub>test_MCQA_1X</sub> <br> Function<sub>test_MCQA_4X</sub> 4,203 <br> 16,812 Accuracy AFDB
EP Enzyme<sub>train</sub> 29,205 Enzyme<sub>test</sub> <br> Enzyme<sub>test_EC_number</sub> 5,651 <br> 5,651 Accuracy PDB

测试集说明:

  • Function<sub>test_FTQA_v2401</sub>:基于 Swiss-Prot 2024_01 版本构建的时间分布外测试集,用于评估对新蛋白质的零样本泛化能力。
  • Function<sub>test_FTQA_trunc90</sub>:结构退化测试集,蛋白质结构被截断至原始残基的 90%,用于评估对不完整结构的鲁棒性。
  • Function<sub>test_MCQA_1X</sub> vs. Function<sub>test_MCQA_4X</sub>:1X 版本选项无排列,4X 版本选项有排列(每个问题 4 种顺序)。

数据格式

FP (功能描述预测) — FTQA 格式

每个条目遵循 LLaVA 的对话格式:

json { "swissprot_id": "P07412", "sequence": "GFLTAEEKGLVNGLWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSS...", "AFDB_id": "AF-P07412-F1-model_v4", "conversations": [ { "from": "human", "value": "<structure> Can you furnish a comprehensive description outlining the function associated with the protein?" }, { "from": "gpt", "value": "Involved in oxygen transport from the lung to the various peripheral tissues." } ] }

FP — MCQA 格式

json { "swissprot_id": "P62877", "sequence": "MAAAMDVDTPSGTNSGAGKKRFEVKKWNAVALWAWDIVVDNCAICRNHIM...", "AFDB_id": "AF-P62877-F1-model_v4", "conversations": [ { "from": "human", "value": "<structure> What are the main functions of this protein? A. [option A text] B. [option B text] C. [option C text] D. [option D text]" }, { "from": "gpt", "value": "A" } ] }

EP (酶催化反应预测) 格式

json { "PDB_id": "2pmo.X", "conversations": [ { "from": "human", "value": "<structure> Please share the enzyme terminology for this protein." }, { "from": "gpt", "value": "non-specific serine/threonine protein kinase" } ] }

EP — EC 编号格式(仅测试集)

json { "PDB_id": "4xi6.A", "EC_number": "2.3.2.27" }

关键字段

字段 描述
swissprot_id UniProtKB/Swiss-Prot 登录号
AFDB_id AlphaFold 数据库结构标识符
PDB_id PDB 结构标识符及链信息
sequence 蛋白质的氨基酸序列
conversations 多轮对话,<structure> 标记结构嵌入插入位置
EC_number 酶委员会分类编号

许可协议

该数据集采用 cc-by-nc-4.0 许可协议。

搜集汇总
数据集介绍
main_image_url
构建方式
OPI-Struc数据集是专为STELLA项目设计的多模态指令微调数据集,旨在将蛋白质三维结构信息与文本指令深度融合。其构建基于两大权威数据源:功能预测任务的数据源自UniProtKB/Swiss-Prot数据库(2022_04版本),并遵循Prot2Text的数据划分策略,三维结构则从AlphaFold蛋白质结构数据库获取;酶催化反应预测任务的数据源则为酶委员会数据集,对应结构取自RCSB PDB。每个样本均以多轮对话的指令微调格式组织,并嵌入特殊的<structure>标记以指示蛋白质结构嵌入的插入位置,从而为语言模型提供结合序列与结构模态的学习基础。
特点
该数据集聚焦于两大关键蛋白质任务,结构精巧且富有挑战性。功能描述预测任务涵盖自由文本问答与多项选择问答两种格式,其中自由文本问答测试集包含时间分布外测试集(基于新版本Swiss-Prot数据)及结构退化测试集(截断至90%残基),用以评估模型的零样本泛化能力与结构鲁棒性。酶催化反应预测任务则预测酶名称或EC编号。数据集总量达351,183个训练样本与40,993个测试样本,并针对不同蛋白质编码器(ESM3、Prot2Text、SaProt)分别组织嵌入目录,方便适配。
使用方法
使用时,用户需先从HuggingFace仓库获取标注JSON文件,但由于预计算的蛋白质结构嵌入文件体积庞大,无法直接托管,需在本地生成。具体步骤包括:依据标注文件中的AFDB_id或PDB_id从AlphaFold数据库或RCSB PDB下载对应的原始蛋白质结构文件(.pdb格式);接着按照STELLA项目环境配置指南安装依赖;随后利用项目提供的precompute_embeddings.py脚本,指定编码器类型、标注JSON路径、结构文件目录及输出路径,即可生成相应的结构嵌入。生成的嵌入文件将自动填充至embs_pt/目录,供训练与评估流程使用。
背景与挑战
背景概述
蛋白质功能注释是计算生物学领域一项核心且艰巨的任务,传统方法多依赖序列同源性比对,难以捕捉由三维构象决定的复杂功能。近年来,以AlphaFold为代表的结构预测技术取得突破性进展,使得研究者得以大规模获取高精度蛋白质结构。在此背景下,北京智源人工智能研究院(BAAI)于2025年发布了OPI-Struc数据集,旨在探索如何将蛋白质三维结构信息与大语言模型(LLM)深度融合。该数据集隶属于STELLA项目,其研究团队从UniProtKB/Swiss-Prot和RCSB PDB等权威来源系统整理结构数据,构建了涵盖功能描述预测与酶催化反应预测的指令微调样本,为发展多模态蛋白质理解模型奠定了坚实基础。OPI-Struc的出现将蛋白质结构预测的突破性成果与LLM的推理能力巧妙衔接,有力推动了AI for Life Science领域的发展。
当前挑战
该数据集面临的核心挑战在于弥合蛋白质结构表征与自然语言理解之间的模态鸿沟。传统序列模型虽能处理一维氨基酸信息,却难以有效利用三维空间构象;而将庞大的结构嵌入与文本指令对齐,则要求创新性的多模态编码与融合策略。从研究问题看,蛋白质功能的准确预测需模型同时捕获折叠模式、活性位点及结合口袋等精细结构特征,这对LLM的空间推理能力提出了远超图像任务的苛刻要求。从构建过程看,数据集整合了AlphaFold DB及PDB等异构来源的结构文件,不同编码器(如ESM3、SaProt)输出的嵌入维度与语义空间各异,如何设计统一的微调范式以兼容多编码器成为技术难点。此外,其时间外推(2024年新蛋白版本)与结构截断(90%残基)测试集的设计,旨在检验模型在分布偏移与不完整结构下的鲁棒性,这进一步加剧了构建的复杂度。
常用场景
经典使用场景
OPI-Struc数据集专为多模态大语言模型(LLM)在蛋白质功能理解任务中的指令微调而设计,其最经典的用途在于联合蛋白质的氨基酸序列与其三维结构信息,驱动模型执行基于结构的功能描述预测(FP)与酶催化反应预测(EP)。研究人员通常以该数据集构建对话式指令样本,将结构嵌入以特殊标记符插入文本,从而实现结构化知识与自然语言的无缝融合,使得模型能够同步处理序列、空间构象与语义信息,具备从层次化特征中推理蛋白质生物学角色的能力。
实际应用
在实际应用中,OPI-Struc可服务于自动化蛋白质功能注释平台、酶学发现管线以及药物靶点识别系统。通过将经过该数据集微调的多模态LLM嵌入高通量结构预测流程,研究人员能够快速解析来自AlphaFold或PDB数据库的未知蛋白质结构,获取其功能描述与催化活性类别,极大减轻人工实验验证的负担。在工业场景中,该数据集也支持定制化酶工程与智能生物制造,辅助酶库筛选与反应回路设计,提升从结构推测功能的自动化层次和准确率。
衍生相关工作
OPI-Struc源自并扩展了OPI(Open Protein Instructions)数据集的设计范式,其衍生出的代表性工作为STELLA模型——一种通过统一序列-结构编码实现蛋白质功能注释的多模态大语言模型,已被ACL 2026接收为Findings论文。在构建过程中,该数据集整合了来自AlphaFold数据库与RCSB PDB的不同结构源,并结合了ESM3、Prot2Text、SaProt等多种蛋白质编码器的嵌入方式,催生了面向多编码器兼容性及指令对齐方法的研究。此外,其提出的时序与结构退化测试集为后续蛋白质语言模型的鲁棒性评估提供了标准化的基准,激发了一系列关于模型泛化能力与结构噪声容忍度的深入探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作