proteingym-fm-benchmark

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/PawanRamaMali/proteingym-fm-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含蛋白质基础模型在ProteinGym替代基准测试（217个DMS测定，约270万个变体）上的零样本适应性预测结果。数据集旨在评估不同蛋白质基础模型的性能，包括ESM-2、ESM-1v、SaProt、ProtT5-XL和ESM3等模型。评估方法采用掩蔽边际概率评分法，计算每个突变的得分，并使用Spearman相关系数（ρ）作为主要评估指标。数据集结构包括每个测定的结果文件（CSV格式）和汇总统计（JSON格式）。数据集适用于蛋白质适应性预测任务，可用于比较不同蛋白质基础模型的性能。数据集持续更新中，最新更新日期为2026年4月2日。

This dataset contains the zero-shot fitness prediction results of protein foundation models on the ProteinGym Substitution Benchmark, which includes 217 DMS assays and approximately 2.7 million variants. This dataset is designed to evaluate the performance of various protein foundation models, such as ESM-2, ESM-1v, SaProt, ProtT5-XL, and ESM3. The evaluation adopts the masked marginal probability scoring method to calculate mutation-level scores, and takes the Spearman correlation coefficient (ρ) as the primary evaluation metric. The dataset structure consists of result files in CSV format for each individual assay and summary statistics in JSON format. This dataset is suitable for protein fitness prediction tasks and can be used to compare the performance of different protein foundation models. The dataset is undergoing continuous updates, with the latest update date being April 2, 2026.

创建时间：

2026-04-02

原始信息汇总

蛋白质基础模型基准测试结果数据集概述

数据集基本信息

数据集名称: Protein Foundation Model Benchmark Results
数据集地址: https://huggingface.co/datasets/PawanRamaMali/proteingym-fm-benchmark
许可证: MIT License（基准测试代码和结果）
任务类别: 蛋白质语言建模
标签: 蛋白质、基准测试、DMS、突变、适应性预测、ESM、ProteinGym
数据规模: 1M < n < 10M
语言: 英语
最后更新日期: 2026-04-02

数据集概述

本数据集包含针对蛋白质基础模型在ProteinGym替换基准（217个DMS检测，约270万个变体）上进行零样本适应性预测的评估结果。这些结果源自论文《From Sequence Encoders to Multimodal Systems: A Critical Survey of Protein Foundation Models》（IEEE TCBB 2026）。

已评估的模型

模型	参数量	状态	平均斯皮尔曼相关系数 ρ
ESM-2 (650M)	650M	完成	0.446
ESM-2 (3B)	3B	运行中	-
ESM-1v (ensemble)	650M×5	待定	-
SaProt (650M)	650M	待定	-
ProtT5-XL	3B	待定	-
ESM3 (1.4B)	1.4B	待定	-
ESM3 (7B)	7B	待定	-

数据集结构

├── per_assay_results/ │ ├── esm2_650M.csv # 每个检测的斯皮尔曼相关系数 │ └── esm2_3B.csv # （随模型完成而更新） ├── summary.json # 汇总统计信息 └── README.md # 说明文件

评估方法

评分方法：掩蔽边缘概率

对于每个突变（例如 A123V）：

在野生型序列中掩蔽位置123。
将掩蔽后的序列输入模型。
提取位置123上所有氨基酸的对数概率。
得分 = log P(V|context) - log P(A|context)。

评估指标

斯皮尔曼相关系数 (ρ)：模型得分与实验DMS适应性值之间的相关性。
报告为所有217个检测的平均值。

使用方式

python from datasets import load_dataset

加载数据集

ds = load_dataset("PawanRamaMali/proteingym-fm-benchmark")

访问每个检测的结果

import pandas as pd esm2_results = pd.read_csv("hf://datasets/PawanRamaMali/proteingym-fm-benchmark/per_assay_results/esm2_650M.csv")

硬件与运行时间

GPU: NVIDIA RTX A6000 (48 GB)
总运行时间: 所有7个模型约需45-55天

引用

bibtex @article{mali2026protein, title={From Sequence Encoders to Multimodal Systems: A Critical Survey of Protein Foundation Models}, author={Mali, Pawan Rama and Bharti, Vandana}, journal={IEEE Transactions on Computational Biology and Bioinformatics}, year={2026} }

重要说明

模型权重受其各自许可证约束（ESM模型为Meta AI许可证）。
该数据集正在积极更新，更多模型完成基准测试后将进行补充。

搜集汇总

数据集介绍

构建方式

在蛋白质工程领域，基准测试对于评估模型性能至关重要。该数据集依托ProteinGym平台，系统性地整合了217个深度突变扫描实验，涵盖约270万个蛋白质变异体。构建过程中，采用掩蔽边际概率评分法，针对每个突变位置进行掩蔽处理，通过蛋白质基础模型计算氨基酸替换的对数概率差异，从而生成零样本适应性预测分数。整个评估流程在专业硬件环境下运行，确保了计算的一致性与可复现性。

特点

该数据集作为蛋白质基础模型的综合性基准，其核心特点在于覆盖广泛的突变空间与多样化的蛋白质家族。数据集提供了跨模型的标准化性能比较，以斯皮尔曼相关系数作为统一度量，反映了模型预测与实验测量值之间的秩次一致性。此外，数据集采用模块化结构存储，支持按实验单元或汇总统计进行灵活访问，便于研究者深入分析模型在不同蛋白质背景下的表现差异。

使用方法

为促进蛋白质计算研究的可及性，该数据集可通过HuggingFace平台直接加载。用户可利用datasets库获取完整数据，并通过pandas读取每项实验的详细结果文件，进行后续分析与可视化。数据集支持对已完成的模型结果进行即时查询，并随着新模型评估的完成而持续更新，为跟踪蛋白质语言模型的最新进展提供了动态资源。

背景与挑战

背景概述

蛋白质工程与计算生物学领域近年来见证了蛋白质基础模型的迅猛发展，这些模型旨在从氨基酸序列中学习复杂的结构和功能模式。proteingym-fm-benchmark数据集于2026年由研究人员Pawan Rama Mali和Vandana Bharti创建，并关联于IEEE TCBB期刊的综述论文。该数据集的核心研究问题在于系统评估不同蛋白质基础模型在零样本设置下对蛋白质突变适应性（fitness）的预测能力，通过整合ProteinGym基准中的217个深度突变扫描（DMS）实验数据，涵盖了约270万个变异体。其影响力体现在为模型性能提供了标准化、可复现的量化比较，推动了蛋白质设计、功能预测及药物发现等应用的进展。

当前挑战

该数据集致力于解决蛋白质突变适应性预测这一领域问题的挑战，具体包括模型需在零样本条件下准确捕捉氨基酸替换对蛋白质功能的影响，以及处理DMS数据中实验噪声和生物学背景多样性所带来的复杂性。在构建过程中，挑战主要源于计算资源的巨大需求，例如使用NVIDIA RTX A6000 GPU仍需约45至55天完成全部7个模型的评估；同时，确保评估方法的一致性，如基于掩蔽边际概率的评分策略，并协调不同模型权重的许可协议，以维持数据集的完整性和可访问性。

常用场景

经典使用场景

在蛋白质工程与计算生物学领域，proteingym-fm-benchmark数据集为评估蛋白质基础模型的零样本适应度预测能力提供了标准化平台。该数据集整合了来自ProteinGym基准的217个深度突变扫描实验，涵盖约270万个蛋白质变体，通过掩蔽边际概率方法计算模型得分，并以斯皮尔曼相关系数作为核心指标，系统性地衡量模型预测与实验测量值之间的一致性。这一经典使用场景不仅推动了蛋白质语言模型的性能比较，还为模型在未见过突变上的泛化能力提供了严谨的验证框架。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，进一步拓展了蛋白质基础模型的应用边界。例如，基于ESM-2等模型的评估结果，研究者开发了针对特定蛋白质家族或突变类型的微调策略，提升了预测精度。同时，该基准催生了新型多模态蛋白质模型的比较研究，结合结构信息与进化数据以增强功能预测。相关成果不仅发表于《IEEE计算生物学与生物信息学汇刊》等顶级期刊，还为开源社区提供了可复现的评估框架，持续推动蛋白质人工智能领域的标准化与创新。

数据集最近研究