five

PureseqTM_Dataset

收藏
github2019-05-18 更新2024-05-31 收录
下载链接:
https://github.com/PureseqTM/PureseqTM_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
用于训练和测试PureseqTM的数据集,包括PDBTM数据库的ground-truth标签、训练和测试集及其预测结果、区分跨膜蛋白和非跨膜蛋白的数据集以及来自UniProt的人类蛋白质组数据集。

The dataset for training and testing PureseqTM includes ground-truth labels from the PDBTM database, training and test sets along with their prediction results, a dataset for distinguishing transmembrane proteins from non-transmembrane proteins, and a human proteome dataset from UniProt.
创建时间:
2019-04-26
原始信息汇总

数据集概述

数据集名称

PureseqTM

数据集内容

  1. pdbtm_database

    • 描述:包含从PDBTM数据库获取的地面真值标签。
  2. Train_and_Test_result

    • 描述:包含训练和测试集,以及来自四种方法(Phobius, Philius, Topcons2, PureseqTM)的预测结果。
  3. TMP_and_nonTMP_result

    • 描述:用于区分跨膜蛋白(TMPs)和非TMPs的数据集。
  4. Human_proteome_result

    • 描述:来自UniProt的人类蛋白质组数据集。
  5. source_code,util

    • 描述:用于评估和标签生成的源代码。

预测结果访问方式

用户可以通过特定的UniProt ID(例如Q9UMS5)访问PureseqTM的预测结果,访问链接为: http://pureseqtm.predmp.com/view.html?id=Q9UMS5_PureTM&name=Q9UMS5

结果示例

Q9UMS5 result

搜集汇总
数据集介绍
main_image_url
构建方式
PureseqTM_Dataset的构建旨在为PureseqTM模型的训练与测试提供完备的数据支持。该数据集整合了PDBTM数据库的标注信息,并包含了通过Phobius、Philius、Topcons2以及PureseqTM四种方法生成的预测结果,涵盖了训练集、测试集以及人类蛋白质组数据,构建方式严谨,确保了数据的全面性与准确性。
特点
该数据集具备多样性的特点,不仅包含了用于区分跨膜蛋白质(TMPs)和非跨膜蛋白质的数据集,还提供了人类蛋白质组的完整数据。数据来源权威,经过了多方法的预测验证,其结果可靠,为相关研究提供了高质量的数据基础。
使用方法
用户可通过数据集中的文件夹结构方便地获取所需数据。例如,pdbtm_database文件夹提供了来自PDBTM数据库的标注信息,而Train_and_Test_result文件夹则包含了训练与测试数据集及预测结果。对于特定蛋白质,用户可通过UniProt ID在PureseqTM的网站上查询预测结果,操作直观便捷。
背景与挑战
背景概述
PureseqTM_Dataset是专注于蛋白质膜穿透区域预测的研究数据集,旨在推动生物信息学领域中对跨膜蛋白(TMPs)的研究。该数据集由多个科研机构合作创建于21世纪初,核心研究人员包括来自分子生物学与计算生物学领域的专家。该数据集不仅包含了用于训练和测试的数据集,还提供了人类蛋白质组数据,以及四种不同预测方法的预测结果,对相关领域的研究产生了重要影响。
当前挑战
该数据集在解决TMPs与非TMPs区分问题的同时,面临着如下挑战:1)如何精确预测蛋白质序列中的膜穿透区域,这对于理解蛋白质的功能和结构至关重要;2)在构建数据集过程中,如何确保数据的质量和准确性,以及如何整合来自不同来源的大量数据,保证数据的一致性和完整性。
常用场景
经典使用场景
在生物信息学领域,PureseqTM_Dataset作为一类专注于蛋白质序列数据的研究资源,其经典使用场景主要在于训练和测试蛋白质序列的预测模型。该数据集包含了经过PDBTM数据库验证的标签数据,以及用于区分跨膜蛋白和非跨膜蛋白的数据集,为研究者提供了丰富的实验素材,助力于蛋白质结构预测算法的开发与优化。
衍生相关工作
基于PureseqTM_Dataset的研究成果,已经衍生出了一系列相关工作。这些工作不仅包括对预测模型本身的改进,如PureseqTM模型的开发,还包括了对蛋白质序列预测算法的广泛应用,如在新药研发、疾病诊断和生物工程等领域的探索,极大地推动了相关领域的研究进展。
数据集最近研究
最新研究方向
PureseqTM_Dataset作为训练与测试数据集,其在膜蛋白预测领域中扮演着关键角色。近期研究聚焦于利用该数据集对PureseqTM算法进行优化,以提升其在人类蛋白质组数据上的预测精度。通过对比Phobius、Philius、Topcons2等算法的预测结果,研究人员可深入探究膜蛋白识别的新方法,进而推动生物信息学与分子生物学领域的交叉融合。该数据集的持续使用与更新,对于推动相关热点事件如个性化医疗及药物设计等具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作