five

GPCRSPACE

收藏
DataCite Commons2024-09-10 更新2024-11-06 收录
下载链接:
https://figshare.com/articles/dataset/GPCRSPACE/26976196
下载链接
链接失效反馈
官方服务:
资源简介:
The quest for novel therapeutics targeting G protein-coupled receptors (GPCRs), essential in numerous physiological processes, is crucial in drug discovery. Despite the abundance of GPCR-targeting drugs, many receptors lack selective modulators, indicating a significant untapped therapeutic potential. To bridge this gap, we introduce GPCRSPACE, a novel GPCR-focused purchasable real chemical library developed using the G protein-coupled receptors large language models (GPCR LLM) architecture. Different from traditional machine learning models, GPCR LLM uses a positive sample machine learning strategy for training and does not need to construct any negative samples. This not only reduces false negatives but also reduces the time to label negative samples. GPCR LLM accelerates the identification and screening of potential GPCR-interactive compounds by learning the chemical space of GPCR-targeting molecules. GPCRSPACE, built on GPCR LLM, outperforms existing chemical datasets in synthesizability, structural diversity, and GPCR-likeness, making it a valuable tool for GPCR drug discovery.

靶向G蛋白偶联受体(G protein-coupled receptors,GPCRs)的新型治疗药物研发是药物发现领域的核心要务——这类受体在诸多生理过程中发挥着不可或缺的作用。尽管目前已有大量靶向GPCR的药物,但仍有诸多受体缺乏选择性调节剂,这表明该领域存在大量尚未被发掘的治疗潜力。为填补这一研究空白,我们推出了GPCRSPACE——一款基于G蛋白偶联受体大语言模型(G protein-coupled receptors large language models, GPCR LLM)架构开发的新型靶向GPCR可购买实体化学库。与传统机器学习模型不同,G蛋白偶联受体大语言模型采用正样本机器学习策略开展训练,无需构建任何负样本。此举不仅可降低假阴性率,还能节省负样本标注所需的时间成本。G蛋白偶联受体大语言模型通过学习靶向GPCR分子的化学空间,加速了潜在GPCR结合化合物的识别与筛选进程。基于该模型构建的GPCRSPACE库,在可合成性、结构多样性及GPCR类药性方面均优于现有化学数据集,是用于GPCR药物发现的极具价值的研究工具。
提供机构:
figshare
创建时间:
2024-09-10
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GPCRSPACE是一个基于GPCR大语言模型开发的化学库数据集,专注于G蛋白偶联受体药物发现,在可合成性和结构多样性方面表现优异。数据集包含文本和SDF格式文件,总大小约1.62GB。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作