five

ProteinConformers

收藏
github2025-10-23 更新2025-10-24 收录
下载链接:
https://github.com/auroua/ProteinConformers
下载链接
链接失效反馈
官方服务:
资源简介:
ProteinConformers是一个基准数据集,用于模拟蛋白质构象景观多样性和合理性的生成模型基准测试,提供数据加载器、采样管道和评估工具。

ProteinConformers is a benchmark dataset dedicated to benchmarking generative models for evaluating the diversity and plausibility of protein conformational landscapes, and it provides data loaders, sampling pipelines and evaluation tools.
创建时间:
2025-10-22
原始信息汇总

ProteinConformers 数据集概述

数据集简介

ProteinConformers 是一个用于模拟蛋白质构象景观多样性和合理性的基准数据集,提供数据加载器、采样流程和评估工具,用于基准测试蛋白质构象的生成模型。

核心功能

采样工具

  • BioEmu采样器:基于BioEmu的蛋白质构象采样
  • ESMdiff采样器:基于ESMdiff的蛋白质构象采样
  • 外部工具支持:支持AlphaFlow、AFsample2和AlphaFold3生成的构象外部处理

评估指标

  • Jensen-Shannon散度
    • JS-PwD:基于C-alpha成对距离分布
    • JS-Rg:基于回转半径分布
    • JS-TIC:基于时间延迟独立成分
  • 集成覆盖度
    • RMSD-ens:GT结构与生成集成的平均最小C-alpha RMSD
    • TM-ens:GT结构与生成集成的平均最大TM-score
  • 结构有效性
    • Validity_Model:生成集成中无冲突结构的比例

环境要求

  • Python环境:Python 3.10或3.11,使用uv管理
  • 可选环境
    • BioEmu ColabFold后端:用于结构优化
    • ESMdiff环境:需要额外的模型检查点和配置文件

使用方法

构象采样

bash

BioEmu采样

uv run python tools/tools_generate_conformations.py --fasta_file_path benchmark_seqs.fasta --sampler_type bioemu --sample_size 3000 --save_path ./bioemu

ESMdiff采样

uv run python tools/tools_generate_conformations.py --fasta_file_path benchmark_seqs.fasta --sampler_type esmdiff --sample_size 3000 --save_path ./esmdiff --ckpt_path /mnt/rna01/chenw/WorkSpace_Bio/esmdiff/data/ckpt/release_v0.pt --sample_mode ddpm --sample_steps 1000 --model_config_path ./configs/esmdiff/experiment/mdlm.yaml

评估工具

  • 综合构象集成评估
  • 自由能景观计算
  • 能量重叠计算
  • 群体覆盖度评分计算

依赖项

  • 核心依赖:通过uv同步安装
  • 评估依赖:biopython、deeptime、TMalign
  • 模型依赖:BioEmu、ESMdiff、AlphaFlow、AFsample2、AlphaFold3

引用信息

bibtex @inproceedings{ProteinConformers, author = {Yihang Zhou, Chen Wei, Matthew M. Sun, Jin Song, Yang Li, Lin Wang and Yang Zhang}, title = {ProteinConformers: Benchmark Dataset for Simulating Protein Conformational Landscape Diversity and Plausibility}, booktitle = {Proceedings of the 39th Conference on Neural Information Processing Systems (NeurIPS 2025)}, year = {2025}, note = {Poster}, url = {https://neurips.cc/virtual/2025/poster/121755} }

搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质结构预测领域,ProteinConformers数据集通过整合多源采样工具构建而成,其核心流程涵盖AlphaFlow、BioEmu和ESMdiff等先进生成模型。该数据集采用模块化设计,利用标准化数据加载器与采样管道,系统性地生成蛋白质构象集合。构建过程中严格遵循生物物理约束,通过并行计算框架处理大规模序列数据,确保构象生成的多样性与效率。
特点
本数据集以构象空间覆盖度与结构合理性为核心特征,提供全面的评估指标体系。其独特之处在于融合了自由能估计、群体覆盖度分析及结构有效性验证等多维度度量方法。数据集内置Jensen-Shannon散度计算模块,可精确量化构象分布差异,同时集成TM-score和RMSD等经典结构比对指标,为构象质量评估提供立体化视角。
使用方法
用户可通过配置化的命令行接口调用不同采样器,例如使用BioEmu采样器时需指定FASTA序列文件与采样规模参数。评估阶段需预先配置TMalign等依赖工具,通过专用脚本计算构象集合的覆盖度指标与能量景观。数据集支持分阶段执行流程,从构象生成到质量评估形成完整闭环,所有操作均在统一Python环境中运行。
背景与挑战
背景概述
蛋白质构象多样性研究是结构生物学与计算生物学的交叉前沿领域,旨在揭示蛋白质在生理环境中的动态行为与功能机制。ProteinConformers数据集由多机构研究团队于2025年创建,核心目标是为蛋白质构象生成模型建立标准化评估框架。该数据集整合了构象采样管道与多维度评估指标,通过覆盖自由能估计、构象空间覆盖度与结构合理性等维度,显著推动了生成模型在蛋白质动态结构预测领域的可复现性与可比性研究。
当前挑战
在蛋白质构象预测领域,核心挑战在于平衡构象多样性生成与物理合理性之间的张力,同时需解决高维构象空间中能量面准确建模的复杂性。数据集构建过程中面临多重技术障碍:需协调AlphaFlow、BioEmu等异构采样工具的依赖环境,处理ESMdiff模型的大规模参数加载与计算资源分配问题,并设计能够同时评估构象分布相似性、结构覆盖度与立体化学合理性的多尺度验证体系。
常用场景
经典使用场景
在蛋白质结构预测领域,ProteinConformers数据集被广泛用于评估生成模型对蛋白质构象多样性的模拟能力。该数据集通过提供标准化的采样流程和评估指标,使研究人员能够系统比较不同算法在构象空间探索中的表现,特别是在模拟蛋白质动态行为方面具有重要价值。
实际应用
在药物发现和蛋白质设计等实际场景中,ProteinConformers为评估候选药物的结合构象和蛋白质工程改造提供了重要参考。其生成的构象集合可用于预测蛋白质-配体相互作用模式,辅助理解蛋白质功能机制,并为生物大分子的理性设计提供结构基础。
衍生相关工作
基于该数据集衍生的经典工作包括BioEmu和ESMdiff等先进采样方法,这些方法通过结合深度学习和物理原理,显著提升了蛋白质构象生成的效率与精度。后续研究还发展了结合自由能景观分析和构象聚类的新算法,进一步拓展了蛋白质动态模拟的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作