five

MPDock|跨膜蛋白数据集|蛋白质结构数据集

收藏
github2024-07-06 更新2024-07-18 收录
跨膜蛋白
蛋白质结构
下载链接:
https://github.com/Graylab/MPDock
下载链接
链接失效反馈
资源简介:
该数据集包含29个不同刚性的跨膜蛋白复合物及其未结合的蛋白质结构。
创建时间:
2024-07-05
原始信息汇总

MPEnsembleDocking 数据集概述

数据集内容

  • 包含29个不同刚性的跨膜蛋白复合物的数据集。
  • 每个复合物的未结合蛋白结构。

附加内容

  • 提供预打包和对接复合物的脚本,前提是给出未结合的单体结构。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建MPDock数据集时,研究者精心挑选了29种不同刚性的跨膜蛋白复合物,并收集了它们的无束缚蛋白质结构。通过系统地整合这些结构数据,确保了数据集的多样性和代表性,从而为后续的蛋白质对接研究提供了坚实的基础。
使用方法
使用MPDock数据集时,研究者可以利用提供的预打包和对接脚本,对给定的无束缚单体结构进行处理。这些脚本不仅简化了数据预处理的过程,还确保了对接模拟的准确性和一致性,从而为蛋白质相互作用的研究提供了高效且可靠的工具。
背景与挑战
背景概述
MPDock数据集聚焦于跨膜蛋白复合物的研究,由29种不同刚性的跨膜蛋白复合物及其未结合的蛋白质结构组成。该数据集由专业研究团队于近期创建,旨在深入探讨跨膜蛋白的结构与功能关系,特别是其在未结合状态下的构象变化。这一研究不仅有助于理解蛋白质的动态行为,还为药物设计提供了宝贵的结构信息,推动了生物医学领域的发展。
当前挑战
MPDock数据集在构建过程中面临多项挑战。首先,跨膜蛋白的复杂性和多样性使得数据收集和处理变得极为复杂。其次,确保数据集中的蛋白质结构准确性是一个重大挑战,因为蛋白质在未结合状态下的构象变化难以预测。此外,数据集的预处理和复合物对接算法的开发也需要克服技术难题,以确保结果的可靠性和实用性。这些挑战不仅影响了数据集的质量,也对其在实际应用中的效果提出了考验。
常用场景
经典使用场景
在分子生物学领域,MPDock数据集被广泛用于研究跨膜蛋白复合物的结构与功能。通过提供29种不同刚性的跨膜蛋白复合物及其未结合的蛋白质结构,该数据集为研究人员提供了一个丰富的资源库,用于模拟和预测蛋白质间的相互作用。经典的使用场景包括蛋白质对接模拟、结构预测以及分子动力学分析,这些研究有助于理解蛋白质在生物体内的功能机制。
解决学术问题
MPDock数据集解决了跨膜蛋白复合物结构预测中的关键学术问题。通过提供详细的未结合蛋白质结构,该数据集使得研究人员能够更准确地模拟蛋白质间的相互作用,从而提高对接算法的精度和可靠性。这对于理解蛋白质的功能、设计新药物以及开发新的生物技术具有重要意义,推动了分子生物学和药物设计领域的研究进展。
实际应用
在实际应用中,MPDock数据集被用于开发和优化药物设计算法。通过模拟跨膜蛋白复合物的对接过程,研究人员可以预测新药物分子与目标蛋白质的结合方式,从而加速药物筛选和开发过程。此外,该数据集还被用于生物工程领域,帮助设计新的蛋白质结构,以实现特定的生物功能或提高生物材料的性能。
数据集最近研究
最新研究方向
在蛋白质结构预测领域,MPDock数据集的最新研究方向主要集中在利用其提供的29个跨膜蛋白复合物的不同刚性及其未结合的蛋白质结构,进行高效的蛋白质对接模拟。研究者们通过开发和优化预打包和对接脚本,旨在提高蛋白质复合物结构预测的准确性和效率。这些研究不仅有助于理解蛋白质间的相互作用机制,还为药物设计和开发提供了重要的结构基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

SuMeyYao/ysmpubmedclt

该数据集的许可证为apache-2.0,主要用于表格问答任务,数据集语言为英语,大小介于1亿到10亿之间。

hugging_face 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录