vector-institute/atom3d-lep
收藏LEP: Ligand Efficacy Prediction
概述
该数据集用于预测给定药物分子是否为特定蛋白质的激活剂或抑制剂。数据集包含29种蛋白质的“活性”和“非活性”状态结构,以及527种已知具有激活或抑制功能的小分子。
数据集结构
-
特征:
input_ids: 活性结构和非活性结构的元素编号集合。coords: 活性结构和非活性结构的3D坐标集合。labels: 标签,1表示激活剂,0表示抑制剂。Dgscore: Glide评分差异(浮点数)。token_type_ids: 掩码,指示input_ids和coords属于活性结构还是非活性结构(0表示活性,1表示非活性)。
-
分割:
train: 304个样本,133082101字节。val: 110个样本,42691055字节。test: 104个样本,55786244字节。
-
配置:
default:train:data/train-*val:data/val-*test:data/test-*
数据格式
每个条目包含以下键:
input_ids: 活性结构和非活性结构的元素编号集合。coords: 活性结构和非活性结构的3D坐标集合。labels: 1表示激活剂,0表示抑制剂。Dgscore: Glide评分差异(浮点数)。token_type_ids: 掩码,指示input_ids和coords属于活性结构还是非活性结构(0表示活性,1表示非活性)。
引用信息
@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }
@article{friesner2004glide, title={Glide: a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy}, author={Friesner, Richard A and Banks, Jay L and Murphy, Robert B and Halgren, Thomas A and Klicic, Jasna J and Mainz, Daniel T and Repasky, Matthew P and Knoll, Eric H and Shelley, Mee and Perry, Jason K and others}, journal={Journal of medicinal chemistry}, volume={47}, number={7}, pages={1739--1749}, year={2004}, publisher={ACS Publications} }




