Protein-SE(3)

Name: Protein-SE(3)
Creator: 华东师范大学计算机科学与技术学院, 上海人工智能教育研究院, 西湖大学未来产业研究中心AI实验室
Published: 2025-07-27 19:53:05
License: 暂无描述

arXiv2025-07-27 更新2025-07-30 收录

下载链接：

https://github.com/BruthYU/protein-se3

下载链接

链接失效反馈

官方服务：

资源简介：

Protein-SE(3)是一个基于统一训练框架的蛋白质结构设计基准，旨在促进不同方法之间的公平比较。该数据集包含19,703个蛋白质结构，旨在帮助研究人员在统一的框架下进行蛋白质结构设计模型的开发、测试和比较。数据集基于Protein Data Bank (PDB)构建，并公开于Harvard Dataverse平台，为蛋白质结构设计研究提供了宝贵的资源。

Protein-SE(3) is a protein structure design benchmark based on a unified training framework, aiming to promote fair comparisons between different methods. This dataset contains 19,703 protein structures, designed to assist researchers in developing, testing and comparing protein structure design models under a unified framework. Constructed based on the Protein Data Bank (PDB), the dataset is publicly available on the Harvard Dataverse platform, serving as a valuable resource for protein structure design research.

提供机构：

华东师范大学计算机科学与技术学院, 上海人工智能教育研究院, 西湖大学未来产业研究中心AI实验室

创建时间：

2025-07-27

原始信息汇总

数据集概述：Benchmarking SE(3)-based Generative Models for Protein Structure Design

数据集基本信息

名称: Benchmarking SE(3)-based Generative Models for Protein Structure Design
许可证: MIT
技术支持: Pytorch Lightning, Hydra Config
GitHub Stars: 显示在徽章中（动态更新）

支持的方法

方法名称	论文标题	会议/期刊	日期	代码链接
FrameDiff	SE(3) diffusion model with application to protein backbone generation	ICML	2023-04-25	https://github.com/jasonkyuyim/se3_diffusion
FoldFlow	SE(3)-Stochastic Flow Matching for Protein Backbone Generation	ICLR	2024-04-21	https://github.com/DreamFold/FoldFlow
Genie1	Genie: De Novo Protein Design by Equivariantly Diffusing Oriented Residue Clouds	ICML	2023-06-26	https://github.com/aqlaboratory/genie
Genie2	Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe	arxiv	2024-05-24	https://github.com/aqlaboratory/genie2
FrameFlow	Improved motif-scaffolding with SE(3) flow matching	TMLR	2024-07-17	https://github.com/microsoft/protein-frame-flow
RFdiffusion	De novo design of protein structure and function with RFdiffusion	Nature	2023-07-11	https://github.com/RosettaCommons/RFdiffusion

安装与使用

安装步骤

创建conda环境： shell conda create -n protein-se3 python=3.9 git clone https://github.com/BruthYU/protein-se3 cd protein-se3 pip install -r requirements.txt
安装NVIDIA的SE(3)-Transformers（仅RFdiffusion需要）： shell cd protein-se3/lightning/model/rfdiffusion/SE3Transformer python setup.py install

数据集预处理

预处理操作: 在protein-se3/preprocess文件夹中实现。
数据格式: 使用Alphafold Protein Data Type，构建lmdb缓存。
预处理命令: sh python preprocess/process_pdb_dataset.py python preprocess/build_cache.py
预下载数据集: 可从Harvard Dataverse获取。

训练与推理

实现位置: protein-se3lightning。
详细说明: 参考README.md。

评估方法

评估任务: Unconditional Scaffolding和Motif Scaffolding。
详细说明: 参考README.md。

基准测试结果

Unconditional Scaffolding across Varying Lengths: 显示在document/unconditional.png中。
Motif Scaffolding on Design24: 显示在document/motif.png中。
Secondary Structure Analysis: 显示在document/secondary_structure.png中。

搜集汇总

数据集介绍

构建方式

Protein-SE(3)数据集的构建基于蛋白质结构设计领域的前沿研究需求，采用模块化基准测试框架。研究者从蛋白质数据库（PDB）中筛选了19,703个单体蛋白质，其序列长度介于60至512个残基之间，结构分辨率优于5Å。通过严格的过滤流程去除超过50%环状结构的蛋白质，确保了数据质量。数据集采用LMDB缓存格式组织，支持高效并行数据加载，同时整合了多种生成模型（如DDPM、Score Matching和Flow Matching）的统一训练框架，为算法比较提供了标准化基础。

特点

该数据集的核心特点体现在三个方面：首先，通过数学抽象将SE(3)群分解为R3平移空间和SO(3)旋转空间，实现了对蛋白质几何结构的精细化建模；其次，整合了六种先进生成模型（包括Genie1/2、FrameDiff等），并采用统一的训练策略和评估指标（如scTM、scRMSD等），确保了横向比较的公正性；最后，创新性地引入Wasserstein距离量化分布对齐过程，通过合成数据可视化R3和SO(3)空间的扩散过程，为算法原型开发提供了无需真实蛋白质结构的数学分析工具。

使用方法

使用Protein-SE(3)需遵循其模块化设计理念：研究人员可通过PyTorch Lightning后端调用集成模型，利用标准化数据加载器处理帧刚性基团和残基序列。评估阶段需执行三步流程：首先生成蛋白质结构，随后通过ProteinMPNN进行逆折叠序列设计，最后使用ESMFold预测结构并计算scTM/scRMSD指标验证自洽性。对于基序支架任务，需加载Design24基准的24个测试案例，通过比较基序区域RMSD评估模型性能。数据集还支持二次开发，用户可基于提供的数学抽象工具包快速验证新算法在R3/SO(3)空间的表现。

背景与挑战

背景概述

Protein-SE(3)数据集由华东师范大学和西湖大学的研究团队于2025年提出，旨在解决蛋白质结构设计领域中基于SE(3)的生成模型缺乏标准化评估框架的问题。该数据集通过整合多种先进生成方法（如DDPM、Score Matching和Flow Matching），构建了一个模块化的基准测试平台，涵盖了蛋白质支架设计、高级数学抽象和多样化评估指标。Protein-SE(3)的推出填补了该领域在训练阶段可复现性和方法对比方面的空白，为计算生物学和药物发现等应用提供了重要工具。

当前挑战

Protein-SE(3)面临的挑战主要体现在两个方面：领域问题方面，蛋白质结构设计需同时处理三维平移空间R3和旋转群SO(3)的分布对齐，其非欧几里得特性导致传统生成模型难以直接应用；构建过程方面，不同方法在数据集构建和分布式训练策略上的差异使得公平对比困难，且扩散过程的实现高度依赖特定蛋白质数据处理，阻碍了数学原理的普适性抽象。此外，随着蛋白质链长度增加，模型在质量和多样性指标上普遍表现下降，揭示了长序列建模的固有难度。

常用场景

经典使用场景

Protein-SE(3)数据集在蛋白质结构设计领域具有广泛的应用价值，特别是在基于SE(3)的生成模型评估中表现突出。该数据集通过统一的训练框架，整合了多种先进的生成模型，如DDPM、Score Matching和Flow Matching方法，为研究人员提供了一个标准化的评估平台。其经典使用场景包括蛋白质支架设计、无条件蛋白质结构生成以及基序支架设计任务。通过提供多样化的评估指标，如质量（scTM、scRMSD）、多样性（Pairwise TM）和新颖性（Max. TM Score to PDB），Protein-SE(3)能够全面评估不同生成模型在蛋白质结构设计中的表现。

实际应用

Protein-SE(3)数据集在实际应用中具有广泛的价值，特别是在药物发现和酶工程等领域。通过提供高质量的蛋白质结构生成模型评估平台，该数据集能够帮助研究人员设计出更具功能性和多样性的蛋白质结构。例如，在药物发现中，研究人员可以利用该数据集评估不同生成模型在设计和优化蛋白质药物方面的潜力。此外，Protein-SE(3)的高效评估框架还能够加速蛋白质工程的实际应用，为合成生物学和工业酶设计提供有力支持。

衍生相关工作

Protein-SE(3)数据集衍生了许多相关的经典工作，特别是在SE(3)基生成模型的研究中。该数据集整合了多种先进的生成模型，如Genie1、Genie2、FrameDiff、RfDiffusion、FoldFlow和FrameFlow等，为这些模型的评估和比较提供了统一的平台。此外，基于Protein-SE(3)的数学抽象工具包还促进了新的算法开发，如Flow Matching方法在蛋白质结构设计中的应用。这些衍生工作不仅推动了蛋白质结构设计领域的发展，还为几何、物理和机器学习等跨学科研究提供了新的思路和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集