SL_13
收藏Hugging Face2025-06-18 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/SL_13
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个针对蛋白质序列的数据集,它根据特定的亚细胞位置术语进行了筛选,包括细胞质、细胞核、分泌、膜、线粒体等13种亚细胞结构。数据集中的序列长度在20至2048个氨基酸之间。通过CD-HIT算法去除了相似度高于80%的序列,并保留了代表性序列。数据集经过去重和标签清洗后,被随机划分为训练集、验证集和测试集,每个集合包含1000个示例(除了训练集有32638个示例)。
提供机构:
Gleghorn Lab
创建时间:
2025-06-18
原始信息汇总
数据集概述:GleghornLab/SL_13
数据来源
- 基于UniProt数据库检索结果(检索日期:2025年6月17日)
- 筛选条件:包含13种特定亚细胞定位术语的蛋白质
亚细胞定位分类
- 细胞质
- 细胞核
- 分泌蛋白
- 膜蛋白
- 线粒体
- 质体
- 内质网
- 液泡
- 溶酶体
- 高尔基体
- 过氧化物酶体
- 叶绿体
- 细胞壁
数据预处理流程
- 序列长度筛选:保留20-2048个氨基酸长度的蛋白质
- 使用CD-HIT进行去冗余(相似度阈值80%,n=5)
- 保留代表性序列
- 清理亚细胞定位标签(移除注释和ECO编号)
- 仅保留具有有效定位标签的样本
- 去除重复数据
- 将标签转换为二进制向量表示
- 随机划分为训练集、验证集(1k)和测试集(1k)
数据集特征
- 特征列:
- labels:字符串类型(亚细胞定位标签)
- seqs:字符串类型(蛋白质序列)
数据集划分
| 分割类型 | 样本数量 | 数据大小(bytes) |
|---|---|---|
| 训练集 | 32,638 | 15,913,904 |
| 验证集 | 1,000 | 472,742 |
| 测试集 | 1,000 | 484,576 |
技术指标
- 下载大小:15,433,449 bytes
- 总数据集大小:16,871,222 bytes
搜集汇总
数据集介绍

构建方式
在蛋白质组学研究领域,SL_13数据集的构建采用了严谨的生物信息学流程。基于UniProt数据库的亚细胞定位术语筛选,研究人员首先提取了13类关键亚细胞结构相关的蛋白质序列。通过设定20至2048个氨基酸的序列长度阈值,运用CD-HIT工具进行80%相似度的去冗余处理,保留代表性序列。数据经过多轮清洗,包括去除注释信息、处理重复条目,并将定位标签转化为二进制向量表示,最终随机划分为训练集、验证集和测试集。
特点
该数据集显著特征体现在其精细的亚细胞定位标注体系,涵盖从细胞质到细胞壁等13种关键细胞器结构。32638条训练序列与各1000条的验证测试集构成平衡的数据分布,所有蛋白质序列均经过严格的长度控制和相似度去重。独特的二进制向量编码方式使多标签分类任务成为可能,为研究蛋白质的多重亚细胞定位提供了理想的数据基础。
使用方法
使用者可通过标准数据加载接口直接获取预分割的训练、验证和测试集。每条数据包含氨基酸序列字符串和对应的亚细胞定位标签,适用于深度学习模型的端到端训练。建议采用多标签分类框架处理二进制向量形式的定位标签,验证集可用于超参数调优,独立测试集则作为模型性能的最终评估标准。数据集的标准化格式确保了与主流机器学习框架的无缝对接。
背景与挑战
背景概述
SL_13数据集是由生物信息学领域的研究人员基于UniProt数据库构建的专业数据集,专注于蛋白质亚细胞定位预测任务。该数据集创建于2025年6月,通过精心筛选13种关键亚细胞结构相关术语,包括细胞质、细胞核、分泌系统、膜结构等核心定位类别。研究人员采用严格的序列长度过滤和CD-HIT聚类方法,确保数据代表性和质量,最终形成包含34,638条蛋白质序列的标准化集合。该数据集为计算生物学领域提供了重要的基准资源,推动了蛋白质功能注释和亚细胞定位预测算法的发展。
当前挑战
在蛋白质亚细胞定位预测领域,SL_13数据集面临多标签分类的固有复杂性,要求模型准确识别蛋白质可能同时存在的多个亚细胞位置。数据构建过程中,研究人员需克服UniProt注释信息的不完整性,通过复杂的术语映射和清洗流程确保标注准确性。序列相似性阈值的选择直接影响数据多样性,80%的CD-HIT聚类标准需要在保留生物学特征与避免数据冗余间取得平衡。此外,膜蛋白等具有多重定位特性的蛋白质样本,其标注的可靠性对模型性能评估构成显著挑战。
常用场景
经典使用场景
在生物信息学领域,SL_13数据集因其精心筛选的亚细胞定位标签而成为蛋白质功能预测研究的基准工具。该数据集通过UniProt数据库筛选出13类关键亚细胞结构的蛋白质序列,为机器学习模型提供了高质量的标注数据。研究者通常利用其标准化的训练-验证-测试划分方案,评估不同算法在蛋白质亚细胞定位任务上的性能表现,特别是在处理长序列和多标签分类问题时展现出独特价值。
实际应用
制药工业中,SL_13数据集被广泛应用于药物靶点识别系统的开发。通过分析候选药物蛋白与特定细胞器的定位关联,可预测其代谢路径和潜在毒性。在合成生物学领域,该数据集指导设计靶向细胞器的工程化蛋白质,例如优化线粒体定位信号肽的基因回路设计,显著提高了人工蛋白质组装效率。
衍生相关工作
基于SL_13的基准特性,衍生出DeepLoc等经典亚细胞定位预测框架。该数据集启发了Transformer在长序列蛋白质分析中的创新应用,如ProtTrans系列模型通过迁移学习在SL_13上实现了89.7%的定位准确率。后续研究进一步扩展了其应用维度,开发出整合三维结构预测的多模态定位系统LocTree3。
以上内容由遇见数据集搜集并总结生成



