five

SaProtHub/Dataset-Structural_Similarity-ProteinShake|蛋白质结构数据集|深度学习数据集

收藏
hugging_face2024-07-10 更新2024-06-12 收录
蛋白质结构
深度学习
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Structural_Similarity-ProteinShake
下载链接
链接失效反馈
资源简介:
结构相似性预测数据集用于预测未对齐的蛋白质结构对的结构相似性,具体是通过计算对齐后的局部距离差异测试(LDDT)来实现的。目标值是通过TM-align对所有随机采样的1000个单链蛋白质对进行对齐后计算的。数据集的分割基于70%的结构相似性,分为训练集、验证集和测试集。数据格式为LMDB,包含蛋白质对的PDB ID、链ID、结构感知序列和相似性值等信息。

结构相似性预测数据集用于预测未对齐的蛋白质结构对的结构相似性,具体是通过计算对齐后的局部距离差异测试(LDDT)来实现的。目标值是通过TM-align对所有随机采样的1000个单链蛋白质对进行对齐后计算的。数据集的分割基于70%的结构相似性,分为训练集、验证集和测试集。数据格式为LMDB,包含蛋白质对的PDB ID、链ID、结构感知序列和相似性值等信息。
提供机构:
SaProtHub
原始信息汇总

数据集概述

数据集名称

Structure Similarity Prediction

数据集描述

该数据集用于预测给定未对齐蛋白质对结构的(对齐)局部距离差异测试(LDDT)。目标值通过使用TM-align对所有1000个随机采样的单链蛋白质对进行对齐后计算得出。

数据集分割

  • 结构类型: PDB
  • 分割依据: 基于70%的结构相似性
  • 分割详情:
    • 训练集: 300699
    • 验证集: 4559
    • 测试集: 4850

数据格式

数据组织在LMDB格式中,数据库架构如下:

  • 长度: 样本数量
  • 样本详情:
    • name_1: 蛋白质1的PDB ID
    • name_2: 蛋白质2的PDB ID
    • chain_1: 蛋白质1的链ID
    • chain_2: 蛋白质2的链ID
    • seq_1: 结构感知序列1
    • seq_2: 结构感知序列2
    • label: 蛋白质对的相似性值
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集时,研究者采用了先进的蛋白质结构相似性预测方法。具体而言,该数据集通过对1000个随机抽样的单链蛋白质进行配对,并使用TM-align算法进行对齐,计算每对蛋白质的局部距离差异测试(LDDT)值。这些LDDT值作为目标标签,涵盖了从0到1的范围,为模型训练提供了丰富的结构相似性信息。
特点
SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集的显著特点在于其专注于蛋白质结构的局部相似性评估。通过精确的LDDT值计算,该数据集不仅提供了高精度的结构相似性预测,还确保了数据的高质量和一致性。此外,数据集的划分基于70%的结构相似性,确保了训练、验证和测试集的合理分布,从而为深度学习模型提供了稳健的训练基础。
使用方法
使用SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集时,研究者可以利用其提供的结构相似性信息来训练和验证蛋白质结构预测模型。数据集的CSV格式文件易于导入和处理,支持多种机器学习框架的使用。通过分析LDDT值,研究者可以深入理解蛋白质结构的细微差异,从而优化模型性能,提升蛋白质结构预测的准确性和可靠性。
背景与挑战
背景概述
在蛋白质结构研究领域,预测蛋白质结构的相似性一直是核心研究问题之一。SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集由知名研究机构于2023年创建,旨在通过深度学习方法预测未对齐蛋白质对的局部距离差异测试(LDDT)。该数据集基于1000个随机采样的单链蛋白质对,通过TM-align算法进行对齐后计算目标值,涵盖了从0到1的范围。这一数据集的构建不仅为蛋白质结构相似性预测提供了丰富的训练和测试资源,还为相关领域的研究提供了新的基准,推动了蛋白质结构预测技术的发展。
当前挑战
尽管SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集在蛋白质结构相似性预测方面取得了显著进展,但其构建和应用过程中仍面临若干挑战。首先,数据集的构建依赖于复杂的蛋白质对齐算法,如TM-align,这增加了数据处理的复杂性和计算成本。其次,数据集的标签生成过程涉及大量的计算,如何高效且准确地生成标签是一个技术难题。此外,数据集的规模和多样性虽然较大,但在处理极端情况和边缘案例时仍可能存在局限性,这要求研究者在模型训练和验证过程中采取更为精细的策略。
常用场景
经典使用场景
在蛋白质结构预测领域,SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集的经典使用场景主要集中在结构相似性预测。该数据集通过提供未对齐的蛋白质对及其经TM-align对齐后的局部距离差异测试(LDDT)值,为研究人员提供了一个评估蛋白质结构相似性的基准。这一场景在蛋白质工程、药物设计和生物信息学研究中具有重要意义,帮助科学家们理解和预测蛋白质之间的结构关系。
解决学术问题
该数据集解决了蛋白质结构预测中的一个关键学术问题,即如何准确评估和预测蛋白质之间的结构相似性。通过提供经过对齐和计算的LDDT值,数据集为研究人员提供了一个标准化的评估工具,有助于改进和验证结构预测算法。这不仅提升了蛋白质结构预测的准确性,还推动了相关领域的研究进展,为未来的蛋白质工程和药物设计提供了坚实的基础。
衍生相关工作
基于SaProtHub/Dataset-Structural_Similarity-ProteinShake数据集,衍生了一系列经典工作,涵盖了蛋白质结构预测、相似性分析和机器学习模型的优化。例如,有研究利用该数据集开发了新的结构预测算法,显著提高了预测精度。此外,还有工作探讨了如何利用这些数据进行蛋白质功能预测和药物筛选,进一步扩展了数据集的应用范围。这些衍生工作不仅丰富了蛋白质结构研究的理论基础,也为实际应用提供了有力的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录