five

RelaxDB, RelaxDB-CPMG

收藏
github2025-03-21 更新2025-03-22 收录
下载链接:
https://github.com/WaymentSteeleLab/Dyna-1
下载链接
链接失效反馈
官方服务:
资源简介:
RelaxDB数据集包含133个精选的R1/R2/NOE数据集,用于评估Dyna-1模型。RelaxDB-CPMG数据集包含10个弛豫-色散Carr-Purcell-Meiboom-Gill数据集,同样用于评估Dyna-1模型。

The RelaxDB dataset comprises 133 curated R1/R2/NOE datasets for evaluating the Dyna-1 model. The RelaxDB-CPMG dataset contains 10 relaxation dispersion Carr-Purcell-Meiboom-Gill datasets, which are also used for evaluating the Dyna-1 model.
创建时间:
2025-03-13
原始信息汇总

Dyna-1 数据集概述

数据集简介

  • 名称: Dyna-1
  • 用途: 预测蛋白质残基微毫秒运动的概率
  • 输入: 蛋白质序列和/或结构
  • 模型基础:
    • 主要基于ESM-3的esm3-sm-open-v1权重
    • 备选版本基于ESM-2嵌入

数据集内容

  • RelaxDB: 133个从BMRB和文献中整理的R1/R2/NOE数据集
  • RelaxDB-CPMG: 10个从文献中整理的CPMG弛豫色散数据集

数据集获取

  • HuggingFace地址: https://huggingface.co/datasets/gelnesr/RelaxDB
  • 仓库内数据:
    • data/RelaxDB_pkls_22jan2025.zip: 用于Dyna-1输入的数据格式
    • data/RelaxDB_datasets/: JSON格式的数据集
    • analysis/: 用于可视化和评估模型输出的演示笔记本

相关资源

许可信息

  • ESM-3版本: 受EvolutionaryScale Cambrian非商业许可协议约束
  • ESM-2版本: 受非商业许可协议约束

引用

bibtex @article {Dyna-1, author = {Wayment-Steele, Hannah K. and El Nesr, Gina and Hettiarachchi, Ramith and Kariyawasam, Hasindu and Ovchinnikov, Sergey and Kern, Dorothee}, title = {Learning millisecond protein dynamics from what is missing in NMR spectra}, year = {2025}, doi = {10.1101/2025.03.19.642801}, journal = {bioRxiv} }

致谢

  • 感谢Evolutionary Scale Team对ESM-3的贡献
  • 感谢FAIR Team对ESM-2的贡献
  • 感谢多位研究人员的数据共享
搜集汇总
数据集介绍
main_image_url
构建方式
RelaxDB和RelaxDB-CPMG数据集的构建基于核磁共振(NMR)光谱数据的深度挖掘与整理。RelaxDB包含了133个从BMRB数据库及相关文献中精选的R1/R2/NOE数据集,而RelaxDB-CPMG则包含了10个从文献中提取的CPMG弛豫色散数据集。这些数据集经过严格筛选和标准化处理,确保了数据的可靠性和一致性,为研究蛋白质动力学提供了坚实的基础。
特点
RelaxDB和RelaxDB-CPMG数据集的特点在于其高度结构化和多样化的数据内容。RelaxDB涵盖了广泛的蛋白质动力学参数,如R1、R2和NOE值,而RelaxDB-CPMG则专注于CPMG弛豫色散数据,提供了蛋白质在微秒到毫秒时间尺度上的动态信息。这些数据集不仅为蛋白质动力学研究提供了丰富的实验数据,还为模型的训练和验证提供了高质量的基准。
使用方法
RelaxDB和RelaxDB-CPMG数据集的使用方法主要包括数据加载、模型推理和结果可视化。用户可以通过提供的Python脚本加载数据集,并使用Dyna-1模型进行蛋白质动力学预测。推理过程中,用户可以选择基于序列、结构或两者结合的输入方式,以获得最佳的预测结果。此外,数据集还支持通过PyMol进行蛋白质结构的可视化,帮助用户直观地理解蛋白质的动态行为。
背景与挑战
背景概述
RelaxDB和RelaxDB-CPMG数据集由Wayment-Steele实验室于2025年发布,旨在支持蛋白质动力学研究,特别是通过核磁共振(NMR)光谱数据揭示蛋白质在微秒至毫秒时间尺度上的动态行为。该数据集的核心研究问题是通过机器学习模型Dyna-1预测蛋白质残基的动态概率,从而填补NMR光谱中缺失的动态信息。RelaxDB包含133个R1/R2/NOE数据集,而RelaxDB-CPMG则包含10个Carr-Purcell-Meiboom-Gill(CPMG)弛豫色散数据集。这些数据集的发布为蛋白质动力学研究提供了重要的实验基础,推动了相关领域的发展。
当前挑战
RelaxDB和RelaxDB-CPMG数据集在构建和应用过程中面临多重挑战。首先,NMR数据的获取和处理本身具有高度复杂性,需要精确的实验条件和数据分析技术。其次,蛋白质动态行为的多样性和复杂性使得模型训练和验证变得尤为困难,尤其是在微秒至毫秒时间尺度上的动态预测。此外,数据集的构建依赖于大量文献和实验数据的整合,数据的一致性和质量控制成为关键问题。最后,Dyna-1模型的非商业使用许可限制了其在更广泛研究中的应用,可能影响数据集的普及和进一步开发。
常用场景
经典使用场景
RelaxDB和RelaxDB-CPMG数据集在蛋白质动力学研究中扮演着关键角色,特别是在核磁共振(NMR)光谱分析中。这些数据集通过提供133个R1/R2/NOE数据集和10个CPMG弛豫-色散数据集,为研究人员提供了丰富的实验数据,用于验证和优化蛋白质动力学模型。这些数据集的使用场景主要集中在蛋白质微秒级动态行为的预测和分析,帮助研究者理解蛋白质在不同时间尺度上的构象变化。
解决学术问题
RelaxDB和RelaxDB-CPMG数据集解决了蛋白质动力学研究中的多个关键问题。首先,它们提供了高质量的实验数据,使得研究人员能够更准确地预测蛋白质的微秒级动态行为。其次,这些数据集通过结合NMR光谱数据,帮助研究者填补了蛋白质动态行为研究中的空白,特别是在理解蛋白质功能与结构之间的关系方面。这些数据集的引入显著提升了蛋白质动力学模型的预测精度和可靠性。
衍生相关工作
RelaxDB和RelaxDB-CPMG数据集的发布催生了一系列相关研究工作。例如,基于这些数据集,研究人员开发了Dyna-1模型,该模型能够从NMR光谱中预测蛋白质的微秒级动态行为。此外,这些数据集还被用于训练和验证其他蛋白质动力学模型,如ESM-3和ESM-2。这些衍生工作不仅扩展了蛋白质动力学研究的深度和广度,还为未来的研究提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作