five

GABA受体相关蛋白质-蛋白质相互作用网络数据集|蛋白质相互作用数据集|药物开发数据集

收藏
arXiv2025-01-06 更新2025-01-08 收录
蛋白质相互作用
药物开发
下载链接:
https://www.ebi.ac.uk/chembl/
下载链接
链接失效反馈
资源简介:
该数据集由武汉纺织大学和密歇根州立大学的研究团队创建,主要围绕GABA受体相关的蛋白质-蛋白质相互作用网络展开。数据集包含24个GABA受体亚型的蛋白质相互作用网络,涉及4824个蛋白质,经过去重后得到980个蛋白质,最终筛选出136个目标蛋白质的抑制剂数据。数据集来源于ChEMBL数据库,包含183,250个抑制剂化合物。研究团队通过机器学习模型对这些化合物进行了结合亲和力预测、副作用评估和药物再利用潜力分析。该数据集的应用领域主要集中在麻醉药物的开发,旨在通过优化现有麻醉药物的结构和筛选新的候选药物,减少副作用并提高药物的安全性和有效性。
提供机构:
武汉纺织大学非线性科学研究中心, 密歇根州立大学数学系, 中山大学数学学院
创建时间:
2025-01-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
GABA受体相关蛋白质-蛋白质相互作用网络数据集的构建基于24种GABA受体亚型的蛋白质相互作用网络,涵盖了超过4000种蛋白质和150万种已知结合化合物。通过从ChEMBL数据库中收集实验结合亲和力数据,并结合自然语言处理模型(如预训练变压器和自编码器嵌入),生成了136个目标的药物-靶点相互作用网络。为确保预测的可靠性,数据集筛选条件包括抑制剂化合物需为人类单蛋白,且最小训练样本数大于250。最终,从980个目标中筛选出136个目标,构建了包含183,250种抑制剂化合物的数据集。
特点
该数据集的特点在于其广泛的覆盖范围和高质量的数据筛选。数据集不仅涵盖了24种GABA受体亚型的蛋白质相互作用网络,还通过严格的筛选条件确保了数据的可靠性和代表性。此外,数据集结合了多种机器学习算法,能够有效预测化合物的结合亲和力、副作用和再利用潜力。数据集的另一个显著特点是其多目标预测能力,能够评估化合物对多个蛋白质的交叉结合亲和力,从而为药物设计和优化提供了全面的支持。
使用方法
该数据集的使用方法主要包括药物筛选和再利用。通过机器学习模型,研究人员可以预测化合物对GABA受体的结合亲和力,并评估其潜在的副作用和再利用价值。具体步骤包括:首先,使用预训练的分子嵌入模型生成化合物的分子指纹;其次,结合支持向量机等机器学习算法构建预测模型;最后,通过交叉验证和ADMET(吸收、分布、代谢、排泄和毒性)筛选,识别出具有潜在治疗价值的化合物。此外,数据集还可用于现有药物的分子优化,以减少副作用并提高药效。
背景与挑战
背景概述
GABA受体相关蛋白质-蛋白质相互作用网络数据集由武汉纺织大学非线性科学研究中心、密歇根州立大学等机构的研究团队于2025年创建,旨在通过蛋白质组学学习探索新型麻醉药物的开发。该数据集基于24种GABA受体亚型的蛋白质-蛋白质相互作用(PPI)网络,涵盖了超过4000种蛋白质和150万种已知结合化合物。研究团队通过构建药物-靶点相互作用网络,筛选出潜在的先导化合物,并结合机器学习算法,评估了超过18万种药物候选物的副作用和再利用潜力。该数据集为麻醉药物的开发提供了新的策略,推动了麻醉学领域的精准医疗发展。
当前挑战
GABA受体相关蛋白质-蛋白质相互作用网络数据集在构建和应用中面临多重挑战。首先,麻醉药物的开发需要解决药物副作用和个体差异问题,现有麻醉药物常伴随呼吸抑制、心血管问题等副作用,且患者对药物的反应存在显著差异。其次,数据集的构建依赖于复杂的蛋白质相互作用网络和药物-靶点相互作用预测,如何从海量数据中筛选出具有高特异性和低副作用的化合物是一个技术难题。此外,机器学习模型的预测精度依赖于高质量的训练数据,而蛋白质相互作用数据的稀缺性和复杂性增加了模型训练的难度。最后,如何将实验室中的预测结果转化为临床可用的麻醉药物,仍需进一步的实验验证和优化。
常用场景
经典使用场景
GABA受体相关蛋白质-蛋白质相互作用网络数据集在麻醉药物研发中具有重要应用。通过构建GABA受体亚型的蛋白质-蛋白质相互作用(PPI)网络,研究者能够系统性地分析药物与GABA受体的相互作用机制,识别潜在的药物靶点及其副作用。该数据集结合了超过4000个蛋白质和150万已知结合化合物,为麻醉药物的虚拟筛选和优化提供了丰富的数据支持。通过机器学习算法,研究者能够预测药物的结合亲和力、副作用及再应用潜力,从而加速新型麻醉药物的开发。
解决学术问题
该数据集解决了麻醉药物研发中的多个关键学术问题。首先,它通过构建GABA受体的PPI网络,揭示了药物与受体之间的复杂相互作用机制,帮助研究者理解麻醉药物的作用靶点及其潜在的副作用。其次,通过机器学习模型,数据集能够预测药物的结合亲和力、副作用及再应用潜力,从而优化药物设计,减少临床试验中的失败率。此外,该数据集还为药物再应用提供了新的思路,通过筛选已有药物库,发现具有麻醉潜力的化合物,显著降低了药物研发的成本和时间。
衍生相关工作
GABA受体相关蛋白质-蛋白质相互作用网络数据集衍生了许多相关研究工作。首先,基于该数据集,研究者开发了多种机器学习模型,用于预测药物的结合亲和力、副作用及再应用潜力。这些模型在麻醉药物研发中得到了广泛应用,显著提高了药物筛选的效率和准确性。其次,该数据集还推动了药物再应用研究的发展,通过筛选已有药物库,发现具有麻醉潜力的化合物,为麻醉药物的开发提供了新的思路。此外,该数据集还为蛋白质-蛋白质相互作用网络的构建和分析提供了新的方法,推动了蛋白质组学在麻醉研究中的应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

UA-DETRAC

UA-DETRAC是一个大规模的基准数据集,包含100个具有挑战性的真实交通场景视频序列,超过140,000帧,具有丰富的标注信息,包括遮挡、天气、车辆类别、截断和车辆边界框,用于目标检测、目标跟踪和多目标跟踪系统。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录