five

Tox24 Challenge Dataset

收藏
github2024-09-04 更新2024-09-06 收录
下载链接:
https://github.com/filipsPL/tox24challenge
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于Tox24挑战的分子结构和描述符,旨在预测化合物对Transthyretin的体外活性。数据集包括化学结构的SMILES格式、训练集、验证集和测试集。

This dataset contains molecular structures and descriptors for the Tox24 challenge, which is intended to predict the in vitro activity of compounds against Transthyretin. The dataset includes SMILES-formatted chemical structures, as well as the training set, validation set and test set.
创建时间:
2024-09-04
原始信息汇总

Tox24 Challenge Dataset

数据集概述

该数据集包含用于Tox24挑战赛的分子结构和描述符,旨在预测化合物对Transthyretin (TTR)的体外活性。

数据集内容

  • 化学结构:以SMILES格式提供,由组织者提供并由RDKit管道整理,文件为data/smiles_org+fixed.csv
  • 训练集:包含1000个化合物的多样化集合,用于模型训练,文件为data/train.csv.xz
  • 验证集:包含100个化合物的多样化集合,用于模型最终验证,文件为data/validation.csv.xz
  • 测试集:包含500个化合物,分为200个领导板集和300个盲集,文件为data/test.csv.xz。测试集中的化合物具有已知和未知的活性,已知活性的化合物也包含在训练/验证集中。

描述符

CSV文件包含分子的2D描述符,包括:

  • DRKitDescriptors (2D)
  • 分子指纹:
    • CDK:
      • CDKECFP4
      • CDKEState
      • CDKFCFP4
      • CDKmolprop
      • CDKpubchem
      • CDKstandard
    • Indigo fingerprints:
      • IndigoResonanceSubstructure
      • IndigoSimilarity
    • RDKit fingerprints:
      • RDkitFP-AtomPair
      • RDkitFP-Avalon
      • RDkitFP-FeatMorgan4
      • RDkitFP-Layered
      • RDkitFP-MACCS
      • RDkitFP-Morgan2
      • RDkitFP-Morgan3
      • RDkitFP-Morgan4
      • RDkitFP-Pattern
      • RDkitFP-RDKit
      • RDkitFP-Torsion

特征重要性

根据最终的catboost模型,展示了特征重要性的条形图。

挑战结果

展示了提交预测的RMSE条形图,祝贺获胜团队Amidoff。

参考文献

  1. OCHEM Platform for Tox24
  2. Chem. Res. Toxicol. 2024, 37, 6, 825–826
搜集汇总
数据集介绍
main_image_url
构建方式
在构建Tox24挑战数据集时,研究团队采用了化学结构数据和分子描述符,旨在预测化合物对Transthyretin(TTR)的体外活性。数据集包括化学结构的SMILES格式,通过RDKit管道进行整理,并分为训练集、验证集和测试集。训练集包含1000个化合物,验证集包含100个化合物,测试集则包含500个化合物,其中200个为排行榜集,300个为盲集。这些数据集的构建旨在确保模型的多样性和泛化能力。
使用方法
使用Tox24挑战数据集时,研究者可以利用提供的化学结构和分子描述符进行模型训练和验证。首先,通过训练集进行模型训练,随后使用验证集进行模型性能的初步评估。最终,测试集中的排行榜集和盲集可用于模型的最终验证和性能比较。此外,数据集还提供了特征重要性的分析图,帮助研究者理解各特征在模型中的作用,从而优化模型设计和预测效果。
背景与挑战
背景概述
Tox24 Challenge Dataset是由团队filipsPL创建的,旨在预测化合物对Transthyretin(TTR)的体外活性。该数据集的核心研究问题是通过化学结构数据来评估化合物对TTR的活性,这对于理解药物与蛋白质的相互作用具有重要意义。TTR是一种与多种疾病相关的蛋白质,包括淀粉样变性病,因此该数据集的研究不仅有助于药物发现,还对疾病机制的理解有深远影响。数据集包含了化学结构的SMILES格式、训练集、验证集和测试集,以及多种分子描述符,为化学信息学和药物设计领域提供了宝贵的资源。
当前挑战
Tox24 Challenge Dataset在构建过程中面临了多个挑战。首先,数据集需要处理和标准化来自不同来源的化学结构数据,这要求高精度的化学信息学工具和方法。其次,特征选择和描述符的重要性评估是模型训练的关键,需要深入的化学知识和统计分析。此外,预测模型的准确性和泛化能力是该挑战的核心问题,尤其是在处理具有未知活性的化合物时。最后,数据集的多样性和代表性也是确保模型在实际应用中有效性的重要因素。
常用场景
经典使用场景
在药物发现领域,Tox24 Challenge Dataset 主要用于预测化合物对 Transthyretin (TTR) 的体外活性。通过分析化合物的化学结构数据,研究人员可以构建模型来预测这些化合物是否具有抑制 TTR 活性的潜力。这种预测对于筛选潜在的药物候选物至关重要,尤其是在早期药物发现阶段,能够显著加速药物开发进程。
解决学术问题
Tox24 Challenge Dataset 解决了药物发现中的一个关键学术问题,即如何高效且准确地预测化合物对特定蛋白质靶点的活性。通过提供丰富的化学结构描述符和分子指纹,该数据集为研究人员提供了一个强大的工具,用于开发和验证机器学习模型。这不仅有助于理解化合物的结构-活性关系,还为新药的发现和设计提供了理论基础。
实际应用
在实际应用中,Tox24 Challenge Dataset 被广泛用于药物筛选和开发。制药公司和研究机构利用该数据集来评估新化合物对 TTR 的抑制活性,从而筛选出具有潜在治疗价值的候选药物。此外,该数据集还可用于优化现有药物的结构,以提高其疗效和安全性,进一步推动药物研发的进程。
数据集最近研究
最新研究方向
在药物毒理学领域,Tox24 Challenge Dataset的最新研究方向主要集中在利用化学结构数据预测化合物对Transthyretin(TTR)的体外活性。这一研究不仅推动了分子描述符和机器学习模型在药物筛选中的应用,还为理解TTR相关疾病提供了新的视角。通过分析分子指纹和2D描述符,研究人员能够更精确地评估化合物的潜在毒性,从而加速新药开发的进程。此外,该数据集的公开使用促进了跨学科合作,特别是在化学信息学和生物信息学领域,为未来的药物设计和安全性评估奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作