five

PDB (Protein Data Bank)|生物信息学数据集|结构生物学数据集

收藏
www.rcsb.org2024-10-23 收录
生物信息学
结构生物学
下载链接:
https://www.rcsb.org/
下载链接
链接失效反馈
资源简介:
PDB (Protein Data Bank) 是一个包含蛋白质、核酸和复杂生物分子三维结构的数据库。它提供了详细的结构信息,包括原子坐标、化学连接、二级结构元素等,是生物信息学和结构生物学研究的重要资源。
提供机构:
www.rcsb.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
PDB(Protein Data Bank)数据集的构建基于全球科研机构对蛋白质结构的研究成果。通过X射线晶体学、核磁共振(NMR)光谱学和冷冻电子显微镜(cryo-EM)等先进技术,科学家们解析了大量蛋白质的三维结构。这些结构数据经过严格的验证和标准化处理后,被提交至PDB数据库,形成了一个涵盖多种生物大分子结构的综合性资源。
特点
PDB数据集以其高精度和多样性著称,收录了从简单的小分子到复杂的蛋白质复合物的结构信息。该数据集不仅包括蛋白质的静态结构,还涵盖了蛋白质在不同条件下的动态变化。此外,PDB还提供了丰富的注释信息,如蛋白质的功能、相互作用网络以及与疾病相关的突变等,为生物医学研究提供了宝贵的参考。
使用方法
PDB数据集广泛应用于生物信息学、药物设计和结构生物学等领域。研究人员可以通过PDB数据库检索特定蛋白质的结构信息,进行结构比对和功能预测。此外,PDB数据还可用于开发新的药物靶点,通过模拟蛋白质与小分子的相互作用,优化药物设计。PDB还支持教育和科普活动,帮助公众理解蛋白质在生命过程中的重要作用。
背景与挑战
背景概述
蛋白质数据银行(PDB)是一个全球性的资源库,自1971年由Walter Hamilton创立以来,已成为分子生物学和结构生物学领域的重要工具。PDB由美国国家科学基金会、能源部和卫生研究院资助,由RCSB PDB(Research Collaboratory for Structural Bioinformatics Protein Data Bank)等机构维护。其核心研究问题在于存储和提供蛋白质、核酸及其复合物的三维结构数据,这些数据对于理解生物分子的功能和相互作用至关重要。PDB的建立极大地推动了药物设计、蛋白质工程和生物信息学的发展,成为全球科学家共享和分析结构数据的基础平台。
当前挑战
尽管PDB在结构生物学领域具有重要地位,但其构建和维护过程中仍面临诸多挑战。首先,数据质量的保证是一个持续的挑战,包括确保数据的准确性和完整性。其次,随着高通量测序技术的发展,PDB需要处理和存储的数据量急剧增加,这对数据管理和存储技术提出了更高的要求。此外,PDB还需要不断更新和扩展其数据格式和标准,以适应新兴的实验技术和计算方法。最后,数据的可访问性和互操作性也是一个重要挑战,确保全球科学家能够高效地获取和利用这些宝贵的结构数据。
发展历史
创建时间与更新
PDB(Protein Data Bank)创建于1971年,由Walter Hamilton在Brookhaven National Laboratory发起。自那时起,PDB不断更新,现已成为全球最大的蛋白质结构数据库,由RCSB PDB维护,最新数据每月更新。
重要里程碑
PDB的重要里程碑包括1998年迁移至RCSB PDB管理,标志着其国际化和多学科合作的开始。2003年,PDB引入MMCIF格式,提升了数据存储和交换的标准化。2012年,PDB与EMDataBank合作,整合了电子显微镜数据,进一步丰富了结构生物学资源。这些里程碑不仅推动了蛋白质结构研究的进步,也为药物设计和生物工程提供了坚实基础。
当前发展情况
当前,PDB持续扩展其数据内容,涵盖了从大分子复合物到小分子配体的广泛结构信息。通过与全球研究机构的合作,PDB不断引入新技术和数据分析工具,如人工智能和机器学习,以提高数据的质量和可用性。PDB的发展不仅促进了结构生物学的前沿研究,也为精准医学和生物技术的发展提供了关键支持,成为现代生物科学不可或缺的资源。
发展历程
  • PDB首次发表,由Walter Hamilton在Brookhaven National Laboratory创建,标志着蛋白质结构数据库的诞生。
    1971年
  • PDB的管理权转移至Research Collaboratory for Structural Bioinformatics (RCSB),标志着数据库管理的新阶段。
    1998年
  • PDB与欧洲生物信息学研究所(EBI)和日本大阪大学蛋白质研究所(PDBj)合作,形成全球PDB联盟,实现数据共享和统一管理。
    2003年
  • PDB发布PDB101教育资源,旨在提高公众对蛋白质结构和功能的理解,标志着其在教育领域的扩展。
    2012年
  • PDB庆祝成立50周年,展示其在生物信息学和结构生物学领域的持续影响力和重要性。
    2019年
常用场景
经典使用场景
在生物信息学领域,PDB(Protein Data Bank)数据集被广泛用于蛋白质结构的研究与分析。研究者通过PDB数据集获取蛋白质的三维结构信息,从而进行蛋白质折叠机制的探索、蛋白质间相互作用的研究以及药物设计等。PDB数据集的丰富内容为科学家提供了宝贵的资源,使得他们能够深入理解蛋白质的功能与机制。
衍生相关工作
PDB数据集的广泛应用催生了众多相关研究工作。例如,基于PDB数据集的蛋白质结构预测算法和分子动力学模拟方法得到了快速发展,这些方法在蛋白质工程和药物设计中发挥了重要作用。此外,PDB数据集还促进了跨学科研究,如结构生物学与计算化学的结合,推动了生物信息学领域的创新。
数据集最近研究
最新研究方向
在生物信息学领域,PDB(Protein Data Bank)数据集的最新研究方向主要集中在蛋白质结构的预测与解析、蛋白质-蛋白质相互作用网络的构建以及基于结构的功能预测。随着计算能力的提升和深度学习技术的应用,研究人员能够更精确地预测蛋白质的三维结构,从而加速新药研发和生物工程的进程。此外,通过整合PDB数据与其他生物数据源,如基因表达数据和代谢通路信息,研究者们正在构建更为复杂的生物网络模型,以揭示蛋白质在细胞功能中的多层次作用机制。这些研究不仅推动了基础生物学的发展,也为临床诊断和治疗提供了新的视角和工具。
相关研究论文
  • 1
    The Protein Data Bank: a historical perspectiveNational Institutes of Health · 2008年
  • 2
    The Protein Data Bank: new resources for research and education in structural biologyNational Institutes of Health · 2019年
  • 3
    The Protein Data Bank: a key resource for structural biologyNational Institutes of Health · 2018年
  • 4
    The Protein Data Bank: a key resource for structural biologyNational Institutes of Health · 2018年
  • 5
    The Protein Data Bank: a key resource for structural biologyNational Institutes of Health · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录