five

Rostlab/ProstT5Dataset|蛋白质结构数据集|序列分析数据集

收藏
hugging_face2023-12-04 更新2024-03-04 收录
蛋白质结构
序列分析
下载链接:
https://hf-mirror.com/datasets/Rostlab/ProstT5Dataset
下载链接
链接失效反馈
资源简介:
ProstT5Dataset是一个精心策划的蛋白质序列及其对应结构序列(3Di)的*标记化*集合,源自AlphaFold蛋白质结构数据库,包括多个聚类和质量过滤步骤。数据集包括两个主要字段:**input_id_x**(3Di标记)和**input_id_y**(氨基酸标记)。数据集通过比较蛋白质的基本属性与蛋白质数据银行中的蛋白质进行了分析,发现氨基酸分布相似,某些3Di标记和螺旋结构在AlphaFold2预测中过度代表,以及该数据集中蛋白质长度较短。数据集的收集和注释始于AlphaFold蛋白质结构数据库,经过两步聚类和一步质量过滤,最终训练集包含1700万蛋白质。数据集被分为训练、测试和验证集,测试和验证集各包含474个蛋白质,训练集包含约1700万个蛋白质。
提供机构:
Rostlab
原始信息汇总

数据集概述

数据集描述

ProstT5Dataset 是一个经过精心筛选的蛋白质序列及其对应结构序列(3Di)的标记化集合。该数据集源自 AlphaFold Protein Structure Database,并包括多个聚类和质量过滤步骤。为了捕捉序列的3D信息,采用了 3Di结构字符串表示,这种格式有效地翻译了序列的3D信息。序列标记使用 ProstT5 Tokenizer 生成。

数据字段

  • input_id_x (3Di Tokens): 从蛋白质中派生的标记化3Di结构表示序列。
  • input_id_y (氨基酸 Tokens): 蛋白质的标记化氨基酸序列。

数据收集和标注

数据集从 AlphaFold Protein Structure Database 开始,经过两步聚类和一步质量过滤:

  1. 第一步聚类:使用 MMseqs2 对 214M UniprotKB 蛋白质序列进行聚类,基于成对序列相似性得到 52M 个聚类。
  2. 第二步聚类:Foldseek 进一步将这些蛋白质聚类成 18.8M 个聚类,并通过添加多样成员扩展到 18.6M 个蛋白质。
  3. 质量过滤:移除低 pLDDT 分数、短长度和高度重复的 3Di 字符串的蛋白质。最终训练集包含 17M 个蛋白质。

数据分割

数据被分割为训练集、测试集和验证集,通过将整个聚类(经过质量过滤)移动到任一集合中。为了防止对大型家族的偏见,验证集和测试集仅保留代表性蛋白质。这导致了 474 个蛋白质用于测试,474 个蛋白质用于验证,约 17M 个蛋白质用于训练。

数据集信息

  • 特征
    • input_id_x:序列类型为 int64
    • input_id_y:序列类型为 int64
  • 分割
    • test:字节数为 1087504,示例数为 474
    • valid:字节数为 1124160,示例数为 474
    • train:字节数为 65391887792,示例数为 17070828
  • 下载大小:810671738 字节
  • 数据集大小:65394099456 字节
  • 许可证:MIT
  • 任务类别
    • 文本生成
  • 标签
    • 生物学
  • 大小类别
    • 10M<n<100M
AI搜集汇总
数据集介绍
main_image_url
构建方式
ProstT5Dataset的构建始于AlphaFold Protein Structure Database,经过两步聚类和一步质量过滤。首先,使用MMseqs2对214M UniprotKB蛋白质序列进行聚类,形成52M个基于成对序列相似性的簇。随后,Foldseek进一步将这些蛋白质聚类为18.8M个簇,并通过添加多样成员扩展至18.6M蛋白质。最后,通过去除低pLDDT评分、短长度和高度重复的3Di字符串的蛋白质,进行质量过滤,最终训练集包含17M蛋白质。
使用方法
ProstT5Dataset主要用于蛋白质序列和结构的双语生成任务。用户可以通过加载数据集中的'input_id_x'和'input_id_y'字段,分别获取3Di结构表示和氨基酸序列的标记化形式。这些数据可用于训练和验证基于Transformer的模型,如ProstT5,以生成或预测蛋白质的结构信息。此外,数据集的MIT许可证允许广泛的研究和应用,促进了生物信息学领域的创新和发展。
背景与挑战
背景概述
在生物信息学领域,蛋白质序列与其三维结构之间的关系一直是研究的核心问题。ProstT5Dataset由Michael Heinzinger等人创建,旨在通过整合AlphaFold Protein Structure Database中的数据,提供一个包含蛋白质序列及其三维结构信息的大规模数据集。该数据集通过两步聚类和质量过滤过程,从214M UniprotKB蛋白质序列中筛选出17M高质量蛋白质,用于训练、验证和测试。ProstT5Dataset的构建不仅有助于推动蛋白质结构预测和功能分析的研究,还为生物信息学领域的模型训练提供了宝贵的资源。
当前挑战
ProstT5Dataset在构建过程中面临多个挑战。首先,从AlphaFold Protein Structure Database中提取和处理大量蛋白质数据需要高效的算法和计算资源。其次,确保数据的质量和一致性,特别是在去除低pLDDT得分、短长度和高度重复的3Di字符串时,需要精细的过滤策略。此外,数据集的划分需避免大族群偏差,确保验证和测试集的代表性。最后,如何有效地将三维结构信息转化为可处理的序列表示,以便于模型训练和预测,也是一个重要的技术难题。
常用场景
经典使用场景
在生物信息学领域,Rostlab/ProstT5Dataset 数据集的经典使用场景主要集中在蛋白质序列与结构的生成和预测任务中。该数据集通过整合 AlphaFold Protein Structure Database 中的蛋白质序列及其对应的 3Di 结构表示,为研究人员提供了一个丰富的资源库。通过训练模型,研究人员可以预测蛋白质的三维结构,从而在药物设计、蛋白质工程等领域中发挥重要作用。
解决学术问题
Rostlab/ProstT5Dataset 数据集解决了生物信息学中长期存在的蛋白质结构预测难题。传统的蛋白质结构预测方法依赖于大量的实验数据,而该数据集通过提供高质量的 3Di 结构表示,使得基于机器学习的预测模型能够更准确地捕捉蛋白质的空间关系。这不仅提高了预测精度,还为蛋白质功能研究提供了新的视角,推动了相关领域的学术进展。
实际应用
在实际应用中,Rostlab/ProstT5Dataset 数据集被广泛用于药物设计和蛋白质工程。通过精确预测蛋白质的三维结构,研究人员可以更有效地设计针对特定蛋白质靶点的药物,从而加速新药的研发过程。此外,该数据集还可用于蛋白质工程,帮助设计具有特定功能的蛋白质,如酶的改造和优化,以满足工业和医疗需求。
数据集最近研究
最新研究方向
在蛋白质结构预测领域,ProstT5Dataset的最新研究方向主要集中在利用深度学习模型,特别是基于Transformer的架构,来提高蛋白质序列和三维结构(3Di)之间的映射精度。这一研究方向的兴起得益于AlphaFold和AlphaFold2在蛋白质结构预测上的突破性进展,这些模型展示了如何有效地将蛋白质序列信息转化为三维结构信息。ProstT5Dataset通过整合AlphaFold Protein Structure Database的数据,并采用先进的3Di结构字符串表示方法,为研究人员提供了一个高质量的数据集,用于训练和验证这些模型。此外,该数据集还支持研究蛋白质序列与功能之间的关系,以及如何通过改进的结构预测来加速药物发现和蛋白质工程。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录