ProteinConformers
收藏ProteinConformers 数据集概述
数据集简介
ProteinConformers 是一个用于模拟蛋白质构象景观多样性和合理性的基准数据集,提供数据加载器、采样流程和评估工具,用于基准测试蛋白质构象的生成模型。
核心功能
采样工具
- BioEmu采样器:基于BioEmu的蛋白质构象采样
- ESMdiff采样器:基于ESMdiff的蛋白质构象采样
- 外部工具支持:支持AlphaFlow、AFsample2和AlphaFold3生成的构象外部处理
评估指标
- Jensen-Shannon散度:
- JS-PwD:基于C-alpha成对距离分布
- JS-Rg:基于回转半径分布
- JS-TIC:基于时间延迟独立成分
- 集成覆盖度:
- RMSD-ens:GT结构与生成集成的平均最小C-alpha RMSD
- TM-ens:GT结构与生成集成的平均最大TM-score
- 结构有效性:
- Validity_Model:生成集成中无冲突结构的比例
环境要求
- Python环境:Python 3.10或3.11,使用uv管理
- 可选环境:
- BioEmu ColabFold后端:用于结构优化
- ESMdiff环境:需要额外的模型检查点和配置文件
使用方法
构象采样
bash
BioEmu采样
uv run python tools/tools_generate_conformations.py --fasta_file_path benchmark_seqs.fasta --sampler_type bioemu --sample_size 3000 --save_path ./bioemu
ESMdiff采样
uv run python tools/tools_generate_conformations.py --fasta_file_path benchmark_seqs.fasta --sampler_type esmdiff --sample_size 3000 --save_path ./esmdiff --ckpt_path /mnt/rna01/chenw/WorkSpace_Bio/esmdiff/data/ckpt/release_v0.pt --sample_mode ddpm --sample_steps 1000 --model_config_path ./configs/esmdiff/experiment/mdlm.yaml
评估工具
- 综合构象集成评估
- 自由能景观计算
- 能量重叠计算
- 群体覆盖度评分计算
依赖项
- 核心依赖:通过uv同步安装
- 评估依赖:biopython、deeptime、TMalign
- 模型依赖:BioEmu、ESMdiff、AlphaFlow、AFsample2、AlphaFold3
引用信息
bibtex @inproceedings{ProteinConformers, author = {Yihang Zhou, Chen Wei, Matthew M. Sun, Jin Song, Yang Li, Lin Wang and Yang Zhang}, title = {ProteinConformers: Benchmark Dataset for Simulating Protein Conformational Landscape Diversity and Plausibility}, booktitle = {Proceedings of the 39th Conference on Neural Information Processing Systems (NeurIPS 2025)}, year = {2025}, note = {Poster}, url = {https://neurips.cc/virtual/2025/poster/121755} }




