five

PureseqTM_Dataset|蛋白质分析数据集|跨膜蛋白识别数据集

收藏
github2019-05-18 更新2024-05-31 收录
蛋白质分析
跨膜蛋白识别
下载链接:
https://github.com/PureseqTM/PureseqTM_Dataset
下载链接
链接失效反馈
资源简介:
用于训练和测试PureseqTM的数据集,包括PDBTM数据库的ground-truth标签、训练和测试集及其预测结果、区分跨膜蛋白和非跨膜蛋白的数据集以及来自UniProt的人类蛋白质组数据集。

The dataset for training and testing PureseqTM includes ground-truth labels from the PDBTM database, training and test sets along with their prediction results, a dataset for distinguishing transmembrane proteins from non-transmembrane proteins, and a human proteome dataset from UniProt.
创建时间:
2019-04-26
原始信息汇总

数据集概述

数据集名称

PureseqTM

数据集内容

  1. pdbtm_database

    • 描述:包含从PDBTM数据库获取的地面真值标签。
  2. Train_and_Test_result

    • 描述:包含训练和测试集,以及来自四种方法(Phobius, Philius, Topcons2, PureseqTM)的预测结果。
  3. TMP_and_nonTMP_result

    • 描述:用于区分跨膜蛋白(TMPs)和非TMPs的数据集。
  4. Human_proteome_result

    • 描述:来自UniProt的人类蛋白质组数据集。
  5. source_code,util

    • 描述:用于评估和标签生成的源代码。

预测结果访问方式

用户可以通过特定的UniProt ID(例如Q9UMS5)访问PureseqTM的预测结果,访问链接为: http://pureseqtm.predmp.com/view.html?id=Q9UMS5_PureTM&name=Q9UMS5

结果示例

Q9UMS5 result

AI搜集汇总
数据集介绍
main_image_url
构建方式
PureseqTM_Dataset的构建旨在为PureseqTM模型的训练与测试提供完备的数据支持。该数据集整合了PDBTM数据库的标注信息,并包含了通过Phobius、Philius、Topcons2以及PureseqTM四种方法生成的预测结果,涵盖了训练集、测试集以及人类蛋白质组数据,构建方式严谨,确保了数据的全面性与准确性。
特点
该数据集具备多样性的特点,不仅包含了用于区分跨膜蛋白质(TMPs)和非跨膜蛋白质的数据集,还提供了人类蛋白质组的完整数据。数据来源权威,经过了多方法的预测验证,其结果可靠,为相关研究提供了高质量的数据基础。
使用方法
用户可通过数据集中的文件夹结构方便地获取所需数据。例如,pdbtm_database文件夹提供了来自PDBTM数据库的标注信息,而Train_and_Test_result文件夹则包含了训练与测试数据集及预测结果。对于特定蛋白质,用户可通过UniProt ID在PureseqTM的网站上查询预测结果,操作直观便捷。
背景与挑战
背景概述
PureseqTM_Dataset是专注于蛋白质膜穿透区域预测的研究数据集,旨在推动生物信息学领域中对跨膜蛋白(TMPs)的研究。该数据集由多个科研机构合作创建于21世纪初,核心研究人员包括来自分子生物学与计算生物学领域的专家。该数据集不仅包含了用于训练和测试的数据集,还提供了人类蛋白质组数据,以及四种不同预测方法的预测结果,对相关领域的研究产生了重要影响。
当前挑战
该数据集在解决TMPs与非TMPs区分问题的同时,面临着如下挑战:1)如何精确预测蛋白质序列中的膜穿透区域,这对于理解蛋白质的功能和结构至关重要;2)在构建数据集过程中,如何确保数据的质量和准确性,以及如何整合来自不同来源的大量数据,保证数据的一致性和完整性。
常用场景
经典使用场景
在生物信息学领域,PureseqTM_Dataset作为一类专注于蛋白质序列数据的研究资源,其经典使用场景主要在于训练和测试蛋白质序列的预测模型。该数据集包含了经过PDBTM数据库验证的标签数据,以及用于区分跨膜蛋白和非跨膜蛋白的数据集,为研究者提供了丰富的实验素材,助力于蛋白质结构预测算法的开发与优化。
衍生相关工作
基于PureseqTM_Dataset的研究成果,已经衍生出了一系列相关工作。这些工作不仅包括对预测模型本身的改进,如PureseqTM模型的开发,还包括了对蛋白质序列预测算法的广泛应用,如在新药研发、疾病诊断和生物工程等领域的探索,极大地推动了相关领域的研究进展。
数据集最近研究
最新研究方向
PureseqTM_Dataset作为训练与测试数据集,其在膜蛋白预测领域中扮演着关键角色。近期研究聚焦于利用该数据集对PureseqTM算法进行优化,以提升其在人类蛋白质组数据上的预测精度。通过对比Phobius、Philius、Topcons2等算法的预测结果,研究人员可深入探究膜蛋白识别的新方法,进而推动生物信息学与分子生物学领域的交叉融合。该数据集的持续使用与更新,对于推动相关热点事件如个性化医疗及药物设计等具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

OECD Employment and Labour Market Statistics

该数据集包含了经合组织(OECD)成员国的就业和劳动力市场统计数据,涵盖了就业率、失业率、劳动力参与率、工资水平、工作时间等多个方面的指标。数据按国家和时间序列提供,帮助分析和比较不同国家的劳动力市场状况。

stats.oecd.org 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录