InstaDeepAI/true-cds-protein-tasks
收藏数据集概述
数据集名称
True CDS Protein Tasks
许可证
cc-by-nc-sa-4.0
语言
英语
标签
生物学、基因组学
数据集描述
本基准包含五个蛋白质任务(四个回归任务和一个氨基酸级分类任务),这些任务在文献中频繁出现,并附有每个蛋白质的真实编码序列。该基准的目的是汇编一组蛋白质任务,以便基因组模型可以在此基础上进行最高可靠性的评估。
任务概览
| 任务名称 | name |
样本输出 | 训练序列数 | 验证序列数 | 测试序列数 |
|---|---|---|---|---|---|
| avGFP荧光预测 | fluorescence |
{sequence, labels} | 21464 | 5366 | 27217 |
| 二级结构预测 (SSP) | ssp |
{sequence, labels} | 7780 | NA | 334 |
| 熔点预测 (MPP) | mpp |
{sequence, labels} | 9432 | 1064 | 1648 |
| 稳定性预测 | stability |
{sequence, labels} | 53700 | 2512 | 12851 |
| β-内酰胺酶活性预测 (完整分割) | beta_lactamase_complete |
{sequence, labels} | 11252 | 2814 | 1080 |
| β-内酰胺酶活性预测 (唯一分割) | beta_lactamase_unique |
{sequence, labels} | 3417 | 865 | 1080 |
分割
除SSP任务外,每个任务都有一个验证集、训练集和测试集。SSP任务有一个训练集和三个独立的测试集。验证集通常从训练集中随机分割。
加载数据集示例
python from datasets import load_dataset
task_name = "ssp"
dataset = load_dataset( "InstaDeepAI/true-cds-protein-tasks", name=task_name, )
数据集任务详细描述
二级结构预测 (SSP)
这是一个多标签分类任务,每个输入氨基酸与八个标签之一相关联,表示该残基所属的二级结构。所有二级结构均通过晶体学或NMR实验获得。训练和验证集的数据由Klausen等人收集,晶体结构从蛋白质数据库中检索,并经过筛选以确保泛化性。
熔点预测 (MPP)
这是一个序列级回归任务,评估模型预测熔化温度的能力。数据源自热稳定性图谱,使用质谱法测定。遵循FLIP中描述的“混合”分割,以避免对大型集群的过度强调。
β-内酰胺酶活性预测
这是一个回归任务,探索TEM-1基因中所有单密码子替代的适应性景观。标签指示突变基因赋予氨苄青霉素抗性的能力。数据来自Firnberg等人的研究,该研究系统地检查了TEM-1 β-内酰胺酶基因中所有单密码子突变的适应性景观。
荧光预测
此任务评估模型预测高阶突变绿色荧光蛋白(avGFP)序列对数荧光的能力。原始数据来自Sarkisyan等人的实验研究,该研究通过随机突变生成库。
稳定性预测
这是一个回归任务,评估模型预测高适应性序列周围小区域稳定性的能力。训练和验证集来自多轮实验,包含多种计算设计的蛋白质。测试集包含围绕最稳定候选者的单密码子突变邻域。




