five

Tox24 Challenge Dataset

收藏
github2024-09-15 更新2024-09-16 收录
下载链接:
https://github.com/helenhenryz/tox24-challenge-project
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于预测化学化合物对transthyretin(TTR)蛋白的活性,包含训练和测试数据的体素化数据以及原始数据。

This dataset is intended for predicting the activity of chemical compounds against transthyretin (TTR) protein, and includes both voxelized data and raw data for training and test datasets.
创建时间:
2024-09-14
原始信息汇总

tox24-challenge-project

概述

该项目是为Tox24挑战赛开发的,旨在使用SMILES表示预测化学化合物对转甲状腺素蛋白(TTR)的活性。我们采用了一种混合方法,结合了**图卷积神经网络(GCNNs)生成静电势(ESP)表面和3D卷积神经网络(3D-CNNs)**从体素化的ESP数据中预测化合物活性。

项目结构

tox24-challenge-project/ │ ├── data/ │ ├── voxel_data/ │ │ ├── train/ # 体素化训练数据 │ │ └── test/ # 体素化测试数据 │ ├── tox24_challenge_train.csv # 原始训练数据 │ └── tox24_challenge_test.csv # 原始测试数据 │ ├── outputs/ │ ├── checkpoints/ │ │ └── best_model.pth # 训练好的模型检查点 │ ├── intermediate/ │ ├── min_max_scaler.pkl # 活性值的缩放器 │ └── processed_train_dataset.csv │ ├── LICENSE
├── Predicting_TTR_Activity.pdf # 项目报告 ├── project.ipynb # 包含代码的Jupyter笔记本 |── requirements.txt └── README.md

方法论

  1. 数据处理:使用RDKit将SMILES字符串转换为3D分子结构。ESP-DNN模型生成静电势表面,并将其体素化为3D网格。
  2. 模型架构:使用3D卷积神经网络(3D-CNN)基于体素化的ESP数据预测化合物活性。
  3. 训练:模型在体素化数据上进行训练,使用早停法并使用均方根误差(RMSE)进行评估。最佳模型保存在outputs/checkpoints/best_model.pth中。

结果

  • 验证RMSE:31.8
  • 基线RMSE:21.8

虽然我们的模型未超过基线,但它为此领域的进一步探索和改进提供了基础。

安装和使用

先决条件

在开始之前,确保已安装以下内容:

  • Python 3.6或更高版本
  • JupyterLab(或Jupyter Notebook)
  • requirements.txt中列出的其他必要库

运行代码

  1. 数据准备

    • 确保数据文件(tox24_challenge_train.csvtox24_challenge_test.csv)位于data/目录中。
    • 体素化数据应已提供在data/voxel_data/traindata/voxel_data/test中。
  2. 运行Jupyter笔记本

    • 在Jupyter Notebook或JupyterLab中打开project.ipynb
    • 按顺序运行单元格以执行数据处理、模型训练和评估步骤。
  3. 查看结果

    • 笔记本将显示模型性能的图表和输出。
    • 训练好的模型保存在outputs/checkpoints/best_model.pth中。

致谢

该项目使用ESP-DNN模型生成静电势表面。ESP-DNN模型根据Apache License 2.0授权,我们感谢以下作者的工作:

  • 标题:Practical High-Quality Electrostatic Potential Surfaces for Drug Discovery Using a Graph-Convolutional Deep Neural Network
  • 作者:Prakash Chandra Rathi, R. Frederick Ludlow, Marcel L. Verdonk
  • 期刊:Journal of Medicinal Chemistry
  • 出版日期:2020年8月27日
  • DOI10.1021/acs.jmedchem.9b01129

我们还感谢Tetko(2024)提供的Tox24挑战赛数据。

许可证

该项目根据Apache License 2.0授权。详细信息请参见LICENSE文件。

联系

如有任何问题或疑问,请联系Helen Henry(helenhenry2025@gmail.com)。

搜集汇总
数据集介绍
main_image_url
构建方式
在构建Tox24挑战数据集时,研究团队采用了混合方法,结合了图卷积神经网络(GCNNs)和三维卷积神经网络(3D-CNNs)。首先,通过RDKit将SMILES字符串转换为三维分子结构,然后利用ESP-DNN模型生成静电势表面。这些表面随后被体素化为三维网格,作为3D-CNN模型的输入。训练过程中,模型在体素化数据上进行训练,并使用均方根误差(RMSE)进行评估,最终保存最佳模型。
特点
Tox24挑战数据集的主要特点在于其多模态数据的整合和先进的深度学习模型的应用。数据集不仅包含了化学化合物的SMILES表示,还通过ESP-DNN模型生成了静电势表面,并进一步体素化为三维网格。这种多层次的数据表示使得模型能够更全面地捕捉化合物的活性特征。此外,数据集的构建过程中采用了早期停止技术,确保了模型的泛化能力。
使用方法
使用Tox24挑战数据集时,用户首先需要克隆项目仓库并安装所需的Python库。接着,用户可以通过Jupyter Notebook运行项目代码,依次执行数据处理、模型训练和评估步骤。数据预处理部分包括将SMILES字符串转换为三维分子结构,并生成体素化数据。模型训练完成后,用户可以查看模型的性能指标,并加载保存的最佳模型进行进一步分析或预测。
背景与挑战
背景概述
Tox24 Challenge Dataset 是由 Helen Henry 及其团队开发,旨在预测化学化合物对转甲状腺素蛋白(TTR)的活性。该数据集利用 SMILES 表示法,结合图卷积神经网络(GCNNs)和三维卷积神经网络(3D-CNNs),生成静电势表面并预测化合物活性。此项目不仅为药物发现领域提供了新的研究工具,还为化学信息学和计算生物学提供了宝贵的数据资源。通过将分子结构转化为三维网格数据,该数据集为研究人员提供了一种新的方法来评估化合物对特定蛋白质的活性,从而加速药物筛选和开发过程。
当前挑战
Tox24 Challenge Dataset 在构建过程中面临多项挑战。首先,将 SMILES 字符串转换为三维分子结构并生成静电势表面需要高度精确的计算方法。其次,使用三维卷积神经网络进行活性预测时,模型的训练和优化过程复杂,且计算资源需求较高。此外,尽管该模型在验证集上的 RMSE 为 31.8,未能超越基线模型的 21.8,表明在预测准确性方面仍有改进空间。这些挑战不仅涉及技术层面的优化,还包括数据处理和模型选择,为后续研究提供了丰富的探索方向。
常用场景
经典使用场景
在药物发现领域,Tox24 Challenge Dataset 被广泛用于预测化学化合物对transthyretin(TTR)蛋白的活性。通过将SMILES表示的分子结构转换为3D网格,并利用3D卷积神经网络(3D-CNN)进行活性预测,该数据集为研究人员提供了一个强大的工具,以评估化合物对特定蛋白质的潜在毒性。
衍生相关工作
基于Tox24 Challenge Dataset,研究人员开发了多种衍生工作,包括改进的电荷分布生成算法和更高效的3D卷积神经网络架构。这些工作不仅提升了活性预测的准确性,还为其他蛋白质的活性预测提供了新的思路和方法,进一步推动了药物发现领域的技术进步。
数据集最近研究
最新研究方向
在药物发现领域,Tox24 Challenge Dataset的最新研究方向主要集中在利用深度学习技术提升化学化合物对transthyretin(TTR)蛋白活性的预测精度。研究者们通过整合图卷积神经网络(GCNNs)和三维卷积神经网络(3D-CNNs),生成静电势表面并预测化合物活性,这一方法在处理复杂分子结构时展现出显著优势。尽管当前模型的表现尚未超越基线,但其为该领域的进一步探索和改进奠定了坚实基础,特别是在提高预测准确性和模型泛化能力方面,具有重要的科学意义和应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作