InstaDeepAI/true-cds-protein-tasks

Name: InstaDeepAI/true-cds-protein-tasks
Creator: InstaDeepAI
Published: 2026-01-13 21:52:56
License: 暂无描述

Hugging Face2026-01-13 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/true-cds-protein-tasks

下载链接

链接失效反馈

官方服务：

资源简介：

该基准测试包含五个蛋白质任务（4个回归任务和1个氨基酸级别的分类任务），这些任务在文献中经常出现，并且每个蛋白质都有相关的真实CDS序列。该基准测试的目的是编译一组蛋白质任务，以便在最高可靠性的情况下评估基因组模型。具体任务包括：avGFP荧光预测（fluorescence）、二级结构预测（ssp）、熔点预测（melting_point）、稳定度预测（stability）和β-内酰胺酶活性预测（beta_lactamase_complete和beta_lactamase_unique）。每个任务都有训练集、验证集和测试集的分割，除了二级结构预测任务，它有1个训练集和3个独立的测试集。数据来源于多个研究，如Klausen等、Firnberg等、Sarkisyan等和Rocklin等。

The benchmark consists of five proteins tasks (4 regression and one amino-acid level classification) frequent in the literature which have the associated true CDS seqeunces for each protein. The motivation for this benchmark is to compile a set of protein tasks on which genomic models can be evaluated with the highest reliability. The tasks include: avGFP Fluorescence Prediction (fluorescence), Secondary Structure Prediction (ssp), Melting Point Prediction (melting_point), Stability Prediction (stability), and Beta-Lactamase Activity Prediction (beta_lactamase_complete and beta_lactamase_unique). Each task has train, validation, and test splits except for SSP, which has one training set and three independent test sets. Data sources include studies by Klausen et al., Firnberg et al., Sarkisyan et al., and Rocklin et al.

提供机构：

InstaDeepAI

原始信息汇总

数据集概述

数据集名称

True CDS Protein Tasks

许可证

cc-by-nc-sa-4.0

语言

英语

数据集描述

本基准包含五个蛋白质任务（四个回归任务和一个氨基酸级分类任务），这些任务在文献中频繁出现，并附有每个蛋白质的真实编码序列。该基准的目的是汇编一组蛋白质任务，以便基因组模型可以在此基础上进行最高可靠性的评估。

任务概览

任务名称	`name`	样本输出	训练序列数	验证序列数	测试序列数
avGFP荧光预测	`fluorescence`	{sequence, labels}	21464	5366	27217
二级结构预测 (SSP)	`ssp`	{sequence, labels}	7780	NA	334
熔点预测 (MPP)	`mpp`	{sequence, labels}	9432	1064	1648
稳定性预测	`stability`	{sequence, labels}	53700	2512	12851
β-内酰胺酶活性预测 (完整分割)	`beta_lactamase_complete`	{sequence, labels}	11252	2814	1080
β-内酰胺酶活性预测 (唯一分割)	`beta_lactamase_unique`	{sequence, labels}	3417	865	1080

分割

除SSP任务外，每个任务都有一个验证集、训练集和测试集。SSP任务有一个训练集和三个独立的测试集。验证集通常从训练集中随机分割。

加载数据集示例

python from datasets import load_dataset

task_name = "ssp"

dataset = load_dataset( "InstaDeepAI/true-cds-protein-tasks", name=task_name, )

数据集任务详细描述

二级结构预测 (SSP)

这是一个多标签分类任务，每个输入氨基酸与八个标签之一相关联，表示该残基所属的二级结构。所有二级结构均通过晶体学或NMR实验获得。训练和验证集的数据由Klausen等人收集，晶体结构从蛋白质数据库中检索，并经过筛选以确保泛化性。

熔点预测 (MPP)

这是一个序列级回归任务，评估模型预测熔化温度的能力。数据源自热稳定性图谱，使用质谱法测定。遵循FLIP中描述的“混合”分割，以避免对大型集群的过度强调。

β-内酰胺酶活性预测

这是一个回归任务，探索TEM-1基因中所有单密码子替代的适应性景观。标签指示突变基因赋予氨苄青霉素抗性的能力。数据来自Firnberg等人的研究，该研究系统地检查了TEM-1 β-内酰胺酶基因中所有单密码子突变的适应性景观。

荧光预测

此任务评估模型预测高阶突变绿色荧光蛋白（avGFP）序列对数荧光的能力。原始数据来自Sarkisyan等人的实验研究，该研究通过随机突变生成库。

稳定性预测

这是一个回归任务，评估模型预测高适应性序列周围小区域稳定性的能力。训练和验证集来自多轮实验，包含多种计算设计的蛋白质。测试集包含围绕最稳定候选者的单密码子突变邻域。

搜集汇总

数据集介绍

构建方式

在蛋白质工程与计算生物学领域，高质量的数据集对于评估基因组模型至关重要。True CDS Protein Tasks数据集通过整合五个经典蛋白质任务构建而成，涵盖回归与分类问题。其构建过程严格遵循文献中的实验设计，每个任务的数据均源自权威的生物学研究，例如荧光预测任务基于Sarkisyan等人的实验，而β-内酰胺酶活性数据则来自Firnberg等人的系统突变研究。数据集采用科学的划分策略，如按序列相似度聚类或突变数量分层，确保训练集、验证集与测试集之间具有清晰的泛化边界，从而为模型评估提供了可靠的基础。

特点

该数据集以其多样化的任务配置和精细的数据划分而著称。它包含四个回归任务和一个氨基酸级别的分类任务，覆盖了荧光强度预测、蛋白质稳定性评估、熔点预测及二级结构预测等多个关键生物学属性。每个任务均配有真实的编码序列，且数据规模各异，例如荧光预测任务包含数万个样本，而二级结构预测则提供多个独立测试集以增强评估的鲁棒性。数据集特别关注编码序列的独特性，通过设计完整与去重两种版本，允许研究者深入探讨序列退化对模型性能的影响，展现了其在基因组建模研究中的独特价值。

使用方法

为便于研究者使用，该数据集已集成于HuggingFace平台，可通过`load_dataset`函数灵活加载。用户需指定任务名称参数，如`fluorescence`或`ssp`，即可获取相应的训练、验证及测试数据。对于二级结构预测任务，还需通过`split`参数选择特定的测试集，例如`test_casp12`。数据以Parquet格式存储，确保了高效的读取与处理。这种模块化的访问方式不仅简化了实验流程，还支持跨任务的系统性比较，为蛋白质功能预测与结构分析研究提供了便捷且标准化的基准工具。

背景与挑战

背景概述

在计算生物学与蛋白质工程领域，精准预测蛋白质结构与功能是核心研究议题。InstaDeepAI/true-cds-protein-tasks数据集由InstaDeep研究机构于近年构建，旨在整合多个经典蛋白质任务，为基因组模型评估提供高可靠性基准。该数据集聚焦于蛋白质序列的真实编码序列（CDS），涵盖荧光预测、二级结构预测、熔点预测、稳定性预测及β-内酰胺酶活性预测五大任务，通过回归与分类问题深入探索蛋白质的物理化学特性与生物功能。其构建基于多项前沿实验研究，如Sarkisyan等人的荧光蛋白突变研究、Klausen等人的结构数据收集，以及Rocklin等人的蛋白质稳定性实验，为机器学习模型在蛋白质设计、药物发现等领域的应用奠定了坚实数据基础。

当前挑战

该数据集致力于解决蛋白质工程中多任务预测的复杂性挑战，包括从序列推断荧光强度、二级结构、热稳定性及酶活性等多元属性，这些任务需克服蛋白质序列与功能间非线性映射的难题。在构建过程中，研究人员面临数据一致性与质量控制挑战，例如处理β-内酰胺酶任务中因单密码子突变产生的退化编码序列，需设计完整与独特两种数据分割以保持序列代表性；同时，荧光预测任务中高阶突变测试集的退化序列处理要求精细的数据筛选。此外，二级结构预测需整合多个独立测试集以确保模型泛化能力，而稳定性预测则涉及从蛋白酶抗性实验中推导复杂稳定性指标，这些过程均需严格遵循生物学实验规范与数据标准化原则。

常用场景

经典使用场景

在蛋白质工程与计算生物学领域，InstaDeepAI/true-cds-protein-tasks数据集为评估基因组语言模型提供了标准化的基准平台。该数据集整合了五种经典蛋白质任务，包括荧光强度预测、二级结构分类、熔点回归、稳定性分析以及β-内酰胺酶活性评估，每个任务均基于真实的编码序列构建。研究者通过该数据集能够系统性地测试模型在序列到功能映射中的泛化能力，尤其在处理蛋白质突变效应与结构功能关联性方面展现出重要价值。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作。例如，TAPE与PEER基准测试框架利用其荧光与稳定性任务评估了多种蛋白质表示学习的性能；FLIP研究则借鉴其熔点预测数据探索了聚类划分对模型泛化的影响。同时，基于该数据集构建的评估协议已被广泛应用于蛋白质语言模型（如ESM、ProtTrans）的效能验证，推动了编码序列感知建模、突变效应预测等前沿方向的发展。

数据集最近研究