cloning_clf
收藏Hugging Face2025-11-17 更新2025-11-18 收录
下载链接:
https://huggingface.co/datasets/AI4Protein/cloning_clf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含蛋白质序列及其对应的$k_cat$分数,用于蛋白质结构稳定性分类。数据集分为训练集和测试集,适用于文本分类任务,特别是与化学、生物学和医学相关的领域。
This dataset contains protein sequences and their corresponding $k_{cat}$ scores, which are used for protein structural stability classification. The dataset is divided into training and test sets, and is suitable for text classification tasks, especially those related to chemistry, biology and medicine.
提供机构:
AI for Protein
创建时间:
2025-11-17
原始信息汇总
数据集概述
基本信息
- 数据集名称: cloning_clf
- 原始数据集名称: biomap-research/cloning_clf
- 许可证: Apache License 2.0
- 任务类别: 文本分类
- 领域标签: 化学、生物学、医学
- 数据规模: 10K<n<100K
数据统计
- 总下载大小: 8,953,878字节
- 总数据集大小: 9,208,147字节
- 训练集样本数: 23,375
- 训练集大小: 7,657,550字节
- 测试集样本数: 4,791
- 测试集大小: 1,550,597字节
数据特征
- aa_seq: 字符串类型,包含蛋白质序列
- label: int64类型,表示蛋白质序列的$k_{cat}$分数
数据来源
- 原始作者/组织: Biomap
- 原始URL: https://huggingface.co/datasets/biomap-research/cloning_clf
数据说明
- 除列名修改外,数据未做任何更改
- 所有版权和权利归原始作者所有
搜集汇总
数据集介绍

构建方式
在蛋白质结构解析领域,该数据集聚焦于实验流程中的关键环节,通过系统收集蛋白质序列及其对应实验阶段稳定性标签构建而成。原始数据来源于生物实验记录,每条数据包含氨基酸序列和经过量化的稳定性评估指标,采用标准化流程对实验阶段标签进行统一编码,确保数据与蛋白质结晶实验的实际进展精确对应。
特点
该数据集的核心特征体现在其专业领域标注的精确性上,氨基酸序列字段完整保留蛋白质一级结构信息,而浮点型标签则精确反映蛋白质在特定实验阶段的稳定性量化指标。数据规模涵盖数万条经过验证的样本,涵盖训练集与测试集的规范划分,为机器学习模型提供具有生物学意义的分类基准。
使用方法
研究者可借助该数据集开发蛋白质稳定性预测模型,通过氨基酸序列输入预测其在实验流程中的表现。典型应用流程包括使用训练集构建分类器,并在独立测试集上验证模型泛化能力。数据字段设计兼容主流深度学习框架,支持端到端的序列特征提取与稳定性关联分析。
背景与挑战
背景概述
蛋白质结构解析作为结构生物学的核心课题,其研究进程涵盖从基因表达至晶体培养的复杂实验流程。由生物计算机构Biomap于2023年构建的cloning_clf数据集,聚焦于蛋白质在克隆筛选阶段的稳定性预测问题。该数据集通过标注蛋白质序列在表达纯化过程中的阶段标签,为机器学习模型提供了关键训练样本,显著推进了高通量蛋白质工程领域的智能化发展,成为连接计算生物学与实验验证的重要桥梁。
当前挑战
该数据集致力于解决蛋白质表达阶段稳定性分类的精准预测难题,其核心挑战在于蛋白质序列特征与表达成功率间非线性关系的建模。在数据构建过程中,面临实验标注成本高昂导致样本规模受限的困境,同时需应对氨基酸序列长度变异引发的特征提取复杂性。此外,生物序列数据固有的高维度稀疏特性,以及实验环境差异引入的标签噪声,均为模型泛化能力带来严峻考验。
常用场景
经典使用场景
在蛋白质工程领域,cloning_clf数据集常用于预测蛋白质序列在克隆阶段的稳定性,这一过程对于筛选适合X射线晶体学研究的候选蛋白至关重要。研究人员利用该数据集训练分类模型,以识别序列特征与实验阶段成功率的关联,从而优化蛋白质表达和纯化流程,显著提升结构生物学研究的效率。
解决学术问题
该数据集解决了蛋白质稳定性预测中的关键学术挑战,即如何从序列信息推断其在不同实验阶段的表现。通过提供大量标注数据,它支持机器学习模型探索序列-功能关系,弥补了传统实验方法的高成本局限,推动了计算生物学在蛋白质设计领域的理论创新与应用深化。
衍生相关工作
基于cloning_clf数据集,衍生出多项经典研究工作,包括开发新型深度学习架构用于多标签蛋白质分类,以及结合迁移学习提升小样本场景下的预测精度。这些成果进一步拓展至蛋白质功能注释和疾病关联分析等领域,形成了从序列到功能的完整研究链条,丰富了生物信息学的方法论体系。
以上内容由遇见数据集搜集并总结生成



