OATML-Markslab/ProteinGym
收藏Hugging Face2022-07-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OATML-Markslab/ProteinGym
下载链接
链接失效反馈官方服务:
资源简介:
ProteinGym数据集是一个广泛的深度突变扫描(DMS)实验集合,用于比较不同突变效应预测器在不同条件下的表现。数据集包含两个基准:1)替换基准,包含87个DMS实验中的约150万个错义变体的实验特征;2)插入/删除基准,包含7个DMS实验中的约30万个突变体。每个基准中的处理文件对应一个DMS实验,并包含三个变量:突变体、DMS_score和DMS_score_bin。此外,还提供了两个参考文件,进一步详细说明了每个实验的细节。
提供机构:
OATML-Markslab
原始信息汇总
数据集概述
ProteinGym 是一个包含深度突变扫描(DMS)测定的综合数据集,旨在比较不同突变效应预测器在不同条件下的表现。该数据集由两个基准组成:
- 替代基准:包含约1.5M错义变异在87个DMS测定中的实验表征。
- 插入缺失基准:包含约300k变异在7个DMS测定中的数据。
数据集内容
每个处理过的文件对应一个单独的DMS测定,并包含以下三个变量:
- mutant (字符串):
- 对于替代基准,描述了在参考序列上应用的替代集合以获得突变序列。
- 对于插入缺失基准,对应于完整的突变序列。
- DMS_score (浮点数): 表示DMS测定中的实验测量值,所有测定中DMS_score值越高,突变蛋白的适应性越高。
- DMS_score_bin (整数): 指示DMS_score是否高于适应性阈值(1表示适应,0表示不适应)。
参考文件
数据集提供了两个参考文件:
- ProteinGym_reference_file_substitutions.csv
- ProteinGym_reference_file_indels.csv
这些文件提供了每个测定的详细信息,包括:
- 对应的蛋白质的UniProt_ID、分类和MSA深度类别。
- 测定中使用的目标序列(target_seq)。
- DMS_score从原始文件创建和二值化的详细信息。



