five

OATML-Markslab/ProteinGym

收藏
Hugging Face2022-07-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OATML-Markslab/ProteinGym
下载链接
链接失效反馈
官方服务:
资源简介:
ProteinGym数据集是一个广泛的深度突变扫描(DMS)实验集合,用于比较不同突变效应预测器在不同条件下的表现。数据集包含两个基准:1)替换基准,包含87个DMS实验中的约150万个错义变体的实验特征;2)插入/删除基准,包含7个DMS实验中的约30万个突变体。每个基准中的处理文件对应一个DMS实验,并包含三个变量:突变体、DMS_score和DMS_score_bin。此外,还提供了两个参考文件,进一步详细说明了每个实验的细节。
提供机构:
OATML-Markslab
原始信息汇总

数据集概述

ProteinGym 是一个包含深度突变扫描(DMS)测定的综合数据集,旨在比较不同突变效应预测器在不同条件下的表现。该数据集由两个基准组成:

  1. 替代基准:包含约1.5M错义变异在87个DMS测定中的实验表征。
  2. 插入缺失基准:包含约300k变异在7个DMS测定中的数据。

数据集内容

每个处理过的文件对应一个单独的DMS测定,并包含以下三个变量:

  1. mutant (字符串):
    • 对于替代基准,描述了在参考序列上应用的替代集合以获得突变序列。
    • 对于插入缺失基准,对应于完整的突变序列。
  2. DMS_score (浮点数): 表示DMS测定中的实验测量值,所有测定中DMS_score值越高,突变蛋白的适应性越高。
  3. DMS_score_bin (整数): 指示DMS_score是否高于适应性阈值(1表示适应,0表示不适应)。

参考文件

数据集提供了两个参考文件:

  • ProteinGym_reference_file_substitutions.csv
  • ProteinGym_reference_file_indels.csv

这些文件提供了每个测定的详细信息,包括:

  • 对应的蛋白质的UniProt_ID、分类和MSA深度类别。
  • 测定中使用的目标序列(target_seq)。
  • DMS_score从原始文件创建和二值化的详细信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作