proteingym-fm-benchmark
收藏蛋白质基础模型基准测试结果数据集概述
数据集基本信息
- 数据集名称: Protein Foundation Model Benchmark Results
- 数据集地址: https://huggingface.co/datasets/PawanRamaMali/proteingym-fm-benchmark
- 许可证: MIT License(基准测试代码和结果)
- 任务类别: 蛋白质语言建模
- 标签: 蛋白质、基准测试、DMS、突变、适应性预测、ESM、ProteinGym
- 数据规模: 1M < n < 10M
- 语言: 英语
- 最后更新日期: 2026-04-02
数据集概述
本数据集包含针对蛋白质基础模型在ProteinGym替换基准(217个DMS检测,约270万个变体)上进行零样本适应性预测的评估结果。这些结果源自论文《From Sequence Encoders to Multimodal Systems: A Critical Survey of Protein Foundation Models》(IEEE TCBB 2026)。
已评估的模型
| 模型 | 参数量 | 状态 | 平均斯皮尔曼相关系数 ρ |
|---|---|---|---|
| ESM-2 (650M) | 650M | 完成 | 0.446 |
| ESM-2 (3B) | 3B | 运行中 | - |
| ESM-1v (ensemble) | 650M×5 | 待定 | - |
| SaProt (650M) | 650M | 待定 | - |
| ProtT5-XL | 3B | 待定 | - |
| ESM3 (1.4B) | 1.4B | 待定 | - |
| ESM3 (7B) | 7B | 待定 | - |
数据集结构
├── per_assay_results/ │ ├── esm2_650M.csv # 每个检测的斯皮尔曼相关系数 │ └── esm2_3B.csv # (随模型完成而更新) ├── summary.json # 汇总统计信息 └── README.md # 说明文件
评估方法
评分方法:掩蔽边缘概率
对于每个突变(例如 A123V):
- 在野生型序列中掩蔽位置123。
- 将掩蔽后的序列输入模型。
- 提取位置123上所有氨基酸的对数概率。
- 得分 = log P(V|context) - log P(A|context)。
评估指标
- 斯皮尔曼相关系数 (ρ):模型得分与实验DMS适应性值之间的相关性。
- 报告为所有217个检测的平均值。
使用方式
python from datasets import load_dataset
加载数据集
ds = load_dataset("PawanRamaMali/proteingym-fm-benchmark")
访问每个检测的结果
import pandas as pd esm2_results = pd.read_csv("hf://datasets/PawanRamaMali/proteingym-fm-benchmark/per_assay_results/esm2_650M.csv")
硬件与运行时间
- GPU: NVIDIA RTX A6000 (48 GB)
- 总运行时间: 所有7个模型约需45-55天
引用
bibtex @article{mali2026protein, title={From Sequence Encoders to Multimodal Systems: A Critical Survey of Protein Foundation Models}, author={Mali, Pawan Rama and Bharti, Vandana}, journal={IEEE Transactions on Computational Biology and Bioinformatics}, year={2026} }
重要说明
- 模型权重受其各自许可证约束(ESM模型为Meta AI许可证)。
- 该数据集正在积极更新,更多模型完成基准测试后将进行补充。




