five

bloyal/deeploc

收藏
Hugging Face2023-08-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bloyal/deeploc
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 --- # DeepLoc-2.0 Training Data Dataset from https://services.healthtech.dtu.dk/services/DeepLoc-2.0/ used to train the DeepLoc-2.0 model. ## Data preparation Data downloaded and processed using the following Python script: ```python import pandas as pd df = pd.read_csv('https://services.healthtech.dtu.dk/services/DeepLoc-2.0/data/Swissprot_Train_Validation_dataset.csv').drop(['Unnamed: 0', 'Partition'], axis=1) df['labels'] = df[['Cell membrane', 'Cytoplasm','Endoplasmic reticulum', 'Extracellular', 'Golgi apparatus', 'Lysosome/Vacuole', 'Mitochondrion', 'Nucleus', 'Peroxisome', 'Plastid']].astype('float32').values.tolist() df['Membrane'] = df['Membrane'].astype('float32') df = df[['Kingdom', 'ACC', 'Sequence','Membrane','labels']] train = df.sample(frac=0.8) df = df.drop(train.index) val = df.sample(frac=0.5) test = df.drop(val.index) train = train.reset_index(drop=True) val = val.reset_index(drop=True) test = test.reset_index(drop=True) train.to_parquet('deeploc-train.parquet', index=False) val.to_parquet('deploc-val.parquet', index=False) test.to_parquet('deeploc-test.parquet', index=False) ``` ## Labels {'Cell membrane': 0, 'Cytoplasm': 1, 'Endoplasmic reticulum': 2, 'Extracellular': 3, 'Golgi apparatus': 4, 'Lysosome/Vacuole': 5, 'Mitochondrion': 6, 'Nucleus': 7, 'Peroxisome': 8, 'Plastid': 9} ## Citation **DeepLoc-2.0:** ``` Vineet Thumuluri and others, DeepLoc 2.0: multi-label subcellular localization prediction using protein language models, Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W228–W234, https://doi.org/10.1093/nar/gkac278 ``` The DeepLoc data is a derivative of the UniProt dataset: **UniProt** ``` The UniProt Consortium UniProt: the Universal Protein Knowledgebase in 2023 Nucleic Acids Res. 51:D523–D531 (2023) ```

--- 许可证:知识共享署名4.0(CC BY 4.0) --- # DeepLoc-2.0 训练数据集 本数据集源自https://services.healthtech.dtu.dk/services/DeepLoc-2.0/,用于训练DeepLoc-2.0模型。 ## 数据准备 本数据集通过以下Python脚本完成下载与处理: python import pandas as pd df = pd.read_csv('https://services.healthtech.dtu.dk/services/DeepLoc-2.0/data/Swissprot_Train_Validation_dataset.csv').drop(['Unnamed: 0', 'Partition'], axis=1) df['labels'] = df[['Cell membrane', 'Cytoplasm','Endoplasmic reticulum', 'Extracellular', 'Golgi apparatus', 'Lysosome/Vacuole', 'Mitochondrion', 'Nucleus', 'Peroxisome', 'Plastid']].astype('float32').values.tolist() df['Membrane'] = df['Membrane'].astype('float32') df = df[['Kingdom', 'ACC', 'Sequence','Membrane','labels']] train = df.sample(frac=0.8) df = df.drop(train.index) val = df.sample(frac=0.5) test = df.drop(val.index) train = train.reset_index(drop=True) val = val.reset_index(drop=True) test = test.reset_index(drop=True) train.to_parquet('deeploc-train.parquet', index=False) val.to_parquet('deploc-val.parquet', index=False) test.to_parquet('deeploc-test.parquet', index=False) ## 标签 { "细胞膜(Cell membrane)": 0, "细胞质(Cytoplasm)": 1, "内质网(Endoplasmic reticulum)": 2, "细胞外区域(Extracellular)": 3, "高尔基体(Golgi apparatus)": 4, "溶酶体/液泡(Lysosome/Vacuole)": 5, "线粒体(Mitochondrion)": 6, "细胞核(Nucleus)": 7, "过氧化物酶体(Peroxisome)": 8, "质体(Plastid)": 9 } ## 引用信息 **DeepLoc-2.0:** Vineet Thumuluri 等. DeepLoc 2.0:基于蛋白质语言模型的多标签亚细胞定位预测[J]. 核酸研究(Nucleic Acids Research), 2022, 第50卷, 第W1期, 2022年7月5日, 第W228-W234页. https://doi.org/10.1093/nar/gkac278 DeepLoc数据集衍生自通用蛋白质知识库(UniProt)数据集: **通用蛋白质知识库(UniProt):** The UniProt Consortium UniProt: the Universal Protein Knowledgebase in 2023 Nucleic Acids Res. 51:D523–D531 (2023)
提供机构:
bloyal
原始信息汇总

DeepLoc-2.0 Training Data

数据来源

  • 数据集来源于DeepLoc-2.0,用于训练DeepLoc-2.0模型。

数据准备

  • 数据通过Python脚本下载并处理,原始数据为CSV格式,文件名为Swissprot_Train_Validation_dataset.csv
  • 数据处理包括删除不必要的列、转换标签类型,并重新组织数据结构。
  • 最终数据分为训练集、验证集和测试集,分别保存为deeploc-train.parquetdeploc-val.parquetdeeploc-test.parquet

标签定义

  • 标签包括10个类别,每个类别对应一个整数值,如下:
    • Cell membrane: 0
    • Cytoplasm: 1
    • Endoplasmic reticulum: 2
    • Extracellular: 3
    • Golgi apparatus: 4
    • Lysosome/Vacuole: 5
    • Mitochondrion: 6
    • Nucleus: 7
    • Peroxisome: 8
    • Plastid: 9

引用信息

搜集汇总
数据集介绍
main_image_url
构建方式
DeepLoc-2.0训练数据集是基于UniProt数据集的衍生作品,其构建过程涉及从Swissprot Train Validation数据集中下载并处理数据。数据通过Python脚本进行清洗,去除了无关列,并将子细胞位置标签转换为浮点数列表。随后,数据集被随机分为训练集、验证集和测试集,各自通过不同的比例抽样,并存储为Parquet格式,以便于后续的模型训练与评估。
特点
该数据集的特点在于其标注的详尽性,涵盖了蛋白质序列在细胞内的十个不同位置的定位信息,包括细胞膜、细胞质、内质网等。此外,数据集的构建考虑了生物信息学的特定需求,通过精确的标签和高质量的数据处理保证了模型的训练效果。其采用的多标签分类体系为蛋白质的亚细胞定位研究提供了重要支持。
使用方法
使用DeepLoc-2.0数据集时,用户首先需要确保具备处理Parquet文件的能力。数据集分为训练、验证和测试三部分,可以直接用于机器学习模型的训练与评估。用户可以根据需要,利用这些数据来训练深度学习模型,以预测蛋白质序列的亚细胞定位。同时,数据集的README文件提供了详细的引用信息,便于用户在学术出版物中正确引用数据来源。
背景与挑战
背景概述
在蛋白质结构与功能研究领域,亚细胞定位是解析蛋白质功能的关键步骤。DeepLoc-2.0数据集应运而生,旨在通过深度学习模型预测蛋白质的亚细胞定位。该数据集由Vineet Thumuluri等人于2022年创建,基于UniProt数据库,经过精心筛选与处理,为DeepLoc-2.0模型的训练提供了重要支持。数据集涵盖多种生物体的蛋白质序列及其对应的亚细胞定位信息,对提升蛋白质定位预测准确性具有显著影响。
当前挑战
DeepLoc-2.0数据集在构建过程中面临了诸多挑战,其中包括如何从UniProt数据库中提取并处理大量数据,以确保数据的质量和一致性。此外,蛋白质亚细胞定位的多标签特性使得模型训练和预测更为复杂。在数据集的实际应用中,如何提高模型的泛化能力和预测精度,以及处理不同生物体间的亚细胞定位差异,仍是一大挑战。
常用场景
经典使用场景
在生物信息学领域,bloyal/deeploc数据集作为DeepLoc-2.0模型的训练数据,其经典使用场景在于对蛋白质序列进行多标签亚细胞定位预测。通过深度学习模型训练,研究者能够准确预测蛋白质在细胞中的具体位置,为细胞生物学研究提供了强有力的数据支撑。
衍生相关工作
基于bloyal/deeploc数据集,衍生了多项经典工作,包括但不限于改进的蛋白质定位模型、结合其他生物信息学数据的集成预测方法,以及针对特定细胞类型或疾病状态的蛋白质定位研究,进一步拓宽了该数据集在学术研究中的应用范围。
数据集最近研究
最新研究方向
在蛋白质亚细胞定位这一领域中,bloyal/deeploc数据集的最近研究集中于利用深度学习模型提高定位预测的准确性。DeepLoc-2.0模型通过蛋白质语言模型,实现了对多标签亚细胞定位的预测。该研究方向的进展不仅推动了生物信息学领域的发展,而且对于理解蛋白质功能和细胞内部分布具有深远影响。近期研究显示,DeepLoc-2.0在预测蛋白质在细胞中的具体位置方面,表现出了较高的准确性和可靠性,为相关疾病机理的研究和药物设计提供了有力的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作