five

vector-institute/atom3d-lep

收藏
Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/vector-institute/atom3d-lep
下载链接
链接失效反馈
官方服务:
资源简介:
LEP(Ligand Efficacy Prediction)数据集用于预测给定药物分子是否会激活或抑制特定蛋白质的功能。数据集包含29种蛋白质的活性与非活性状态结构,以及527个小分子的激活或抑制功能信息。通过Glide程序模拟小分子的最佳结合姿态,并尝试将分子分类为激活剂或抑制剂。数据集的格式包括输入ID、3D坐标、标签、Glide分数差异和标记类型ID等特征。数据集分为训练集、验证集和测试集,分别包含304、110和104个样本。

The dataset is used for predicting whether a given drug molecule is an activator or inactivator of a specific protein. It includes structures of 29 proteins in both active and inactive states, along with models of 527 small molecules known to have activating or inactivating functions and their binding sites. Each entry contains atomic numbers, 3D coordinates, labels, Glide score differences, and token type IDs. The dataset is split into training, validation, and test sets, partitioned by protein.
提供机构:
vector-institute
原始信息汇总

LEP: Ligand Efficacy Prediction

概述

该数据集用于预测给定药物分子是否为特定蛋白质的激活剂或抑制剂。数据集包含29种蛋白质的“活性”和“非活性”状态结构,以及527种已知具有激活或抑制功能的小分子。

数据集结构

  • 特征:

    • input_ids: 活性结构和非活性结构的元素编号集合。
    • coords: 活性结构和非活性结构的3D坐标集合。
    • labels: 标签,1表示激活剂,0表示抑制剂。
    • Dgscore: Glide评分差异(浮点数)。
    • token_type_ids: 掩码,指示input_idscoords属于活性结构还是非活性结构(0表示活性,1表示非活性)。
  • 分割:

    • train: 304个样本,133082101字节。
    • val: 110个样本,42691055字节。
    • test: 104个样本,55786244字节。
  • 配置:

    • default:
      • train: data/train-*
      • val: data/val-*
      • test: data/test-*

数据格式

每个条目包含以下键:

  • input_ids: 活性结构和非活性结构的元素编号集合。
  • coords: 活性结构和非活性结构的3D坐标集合。
  • labels: 1表示激活剂,0表示抑制剂。
  • Dgscore: Glide评分差异(浮点数)。
  • token_type_ids: 掩码,指示input_idscoords属于活性结构还是非活性结构(0表示活性,1表示非活性)。

引用信息

@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }

@article{friesner2004glide, title={Glide: a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy}, author={Friesner, Richard A and Banks, Jay L and Murphy, Robert B and Halgren, Thomas A and Klicic, Jasna J and Mainz, Daniel T and Repasky, Matthew P and Knoll, Eric H and Shelley, Mee and Perry, Jason K and others}, journal={Journal of medicinal chemistry}, volume={47}, number={7}, pages={1739--1749}, year={2004}, publisher={ACS Publications} }

搜集汇总
数据集介绍
main_image_url
构建方式
在药物发现领域,准确预测配体对蛋白质功能的调控效应至关重要。LEP数据集的构建始于从多个蛋白家族中精选出29种具有明确“激活”与“失活”构象的蛋白质,例如处于开放或闭合状态的离子通道。随后,研究人员利用Glide程序对527个已知具有激活或失活功能的小分子进行结合位点与构象的对接模拟,筛选出每个分子在两种蛋白质构象中的最优结合姿态。最终,通过整合活性与非活性结构的原子序列与三维坐标,并标注配体的功能类别,形成了用于分类任务的结构化数据对。
特点
该数据集的核心特点在于其三维结构信息的深度融合,不仅包含配体分子的原子序列,还同时提供了活性与非活性蛋白质构象的空间坐标,从而完整保留了生物分子相互作用的立体化学环境。数据条目中特别设计了token_type_ids掩码,用以清晰区分活性与非活性结构对应的输入部分,增强了模型对构象差异的辨识能力。此外,数据集还附带了基于Glide评分差异的Dgscore基准指标,为配体功效预测任务提供了可量化的结构对接参照。
使用方法
在应用该数据集时,研究者可将其直接用于训练深度学习模型,以执行配体功效的二分类任务。输入数据包括拼接后的活性与非活性结构的原子编号序列与坐标序列,模型需结合token_type_ids的掩码信息,学习区分两种构象并预测配体属于激活剂或失活剂。数据已预先划分为训练、验证与测试集,且遵循按蛋白质分区的原则,确保同一蛋白质的所有复合物均位于同一数据分割中,有效避免了评估时的信息泄漏。通过利用Dgscore作为基线特征,可进一步优化模型的预测性能与可解释性。
背景与挑战
背景概述
在计算药物设计领域,精准预测配体对蛋白质功能的调控效应是开发靶向疗法的核心环节。Vector Institute于2020年发布的ATOM3D-LEP数据集,由Raphael J.L. Townshend等研究人员构建,专注于配体功效预测任务。该数据集整合了29个蛋白质家族的活性与非活性构象,以及527个已知激活或抑制功能的小分子配体,通过Glide程序模拟结合姿态,旨在从三维结构层面判别配体作为激活剂或抑制剂的分类问题。这一工作推动了结构感知机器学习在药物发现中的应用,为理解蛋白质-配体动态相互作用提供了关键数据基础。
当前挑战
ATOM3D-LEP数据集致力于解决蛋白质-配体相互作用中配体功效预测的复杂挑战,其核心在于从蛋白质构象变化与配体结合模式的关联中推断生物活性,这要求模型同时处理分子三维几何与化学特征。在构建过程中,研究人员面临多重困难:一是蛋白质构象状态的准确获取与对齐,需确保活性与非活性结构的实验或模拟数据可靠性;二是小分子配体结合姿态的预测精度依赖Glide等对接工具的评分函数,可能引入系统偏差;三是数据规模受限于已知功能的蛋白质-配体对,样本多样性不足可能影响模型泛化能力。
常用场景
经典使用场景
在计算药物化学领域,LEP数据集为配体功效预测任务提供了标准化的三维结构基准。该数据集通过整合蛋白质的活性与非活性构象,以及小分子配体的结合姿态,构建了一个基于三维原子坐标的分类框架。研究者通常利用该数据集训练深度学习模型,以区分配体是作为激活剂还是抑制剂作用于特定蛋白质,从而模拟药物分子与生物靶点之间的构效关系。
解决学术问题
LEP数据集有效解决了药物发现中配体功效预测的若干核心学术问题。它通过提供蛋白质双态结构信息,使模型能够学习构象选择性与配体功能之间的关联,弥补了传统方法仅依赖单一静态结构的局限。该数据集促进了三维分子表示学习的发展,为理解变构调节和构象动力学提供了数据基础,推动了计算生物学与人工智能的交叉融合。
衍生相关工作
围绕LEP数据集,已衍生出一系列经典研究工作,特别是在三维分子表征学习领域。例如,Atom3D框架利用该数据集评估了多种图神经网络与几何深度学习模型的性能。后续研究进一步拓展了等变神经网络与注意力机制在蛋白质-配体复合物建模中的应用,推动了如SE(3)-Transformer等架构的发展,为三维生物分子数据的机器学习奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作