Tox24 Challenge Dataset
收藏tox24-challenge-project
概述
该项目是为Tox24挑战赛开发的,旨在使用SMILES表示预测化学化合物对转甲状腺素蛋白(TTR)的活性。我们采用了一种混合方法,结合了**图卷积神经网络(GCNNs)生成静电势(ESP)表面和3D卷积神经网络(3D-CNNs)**从体素化的ESP数据中预测化合物活性。
项目结构
tox24-challenge-project/
│
├── data/
│ ├── voxel_data/
│ │ ├── train/ # 体素化训练数据
│ │ └── test/ # 体素化测试数据
│ ├── tox24_challenge_train.csv # 原始训练数据
│ └── tox24_challenge_test.csv # 原始测试数据
│
├── outputs/
│ ├── checkpoints/
│ │ └── best_model.pth # 训练好的模型检查点
│ ├── intermediate/
│ ├── min_max_scaler.pkl # 活性值的缩放器
│ └── processed_train_dataset.csv
│
├── LICENSE
├── Predicting_TTR_Activity.pdf # 项目报告
├── project.ipynb # 包含代码的Jupyter笔记本
|── requirements.txt
└── README.md
方法论
- 数据处理:使用RDKit将SMILES字符串转换为3D分子结构。ESP-DNN模型生成静电势表面,并将其体素化为3D网格。
- 模型架构:使用3D卷积神经网络(3D-CNN)基于体素化的ESP数据预测化合物活性。
- 训练:模型在体素化数据上进行训练,使用早停法并使用均方根误差(RMSE)进行评估。最佳模型保存在
outputs/checkpoints/best_model.pth中。
结果
- 验证RMSE:31.8
- 基线RMSE:21.8
虽然我们的模型未超过基线,但它为此领域的进一步探索和改进提供了基础。
安装和使用
先决条件
在开始之前,确保已安装以下内容:
- Python 3.6或更高版本
- JupyterLab(或Jupyter Notebook)
requirements.txt中列出的其他必要库
运行代码
-
数据准备:
- 确保数据文件(
tox24_challenge_train.csv,tox24_challenge_test.csv)位于data/目录中。 - 体素化数据应已提供在
data/voxel_data/train和data/voxel_data/test中。
- 确保数据文件(
-
运行Jupyter笔记本:
- 在Jupyter Notebook或JupyterLab中打开
project.ipynb。 - 按顺序运行单元格以执行数据处理、模型训练和评估步骤。
- 在Jupyter Notebook或JupyterLab中打开
-
查看结果:
- 笔记本将显示模型性能的图表和输出。
- 训练好的模型保存在
outputs/checkpoints/best_model.pth中。
致谢
该项目使用ESP-DNN模型生成静电势表面。ESP-DNN模型根据Apache License 2.0授权,我们感谢以下作者的工作:
- 标题:Practical High-Quality Electrostatic Potential Surfaces for Drug Discovery Using a Graph-Convolutional Deep Neural Network
- 作者:Prakash Chandra Rathi, R. Frederick Ludlow, Marcel L. Verdonk
- 期刊:Journal of Medicinal Chemistry
- 出版日期:2020年8月27日
- DOI:10.1021/acs.jmedchem.9b01129
我们还感谢Tetko(2024)提供的Tox24挑战赛数据。
许可证
该项目根据Apache License 2.0授权。详细信息请参见LICENSE文件。
联系
如有任何问题或疑问,请联系Helen Henry(helenhenry2025@gmail.com)。




