ToxBench

Name: ToxBench
Creator: NVIDIA, Schrödinger
Published: 2025-07-12 02:50:43
License: 暂无描述

arXiv2025-07-12 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/karlleswing/toxbench

下载链接

链接失效反馈

官方服务：

资源简介：

ToxBench是一个专注于人类雌激素受体α（ERα）的AB-FEP数据集，包含8770个ERα配体复合结构，每个结构都通过AB-FEP计算得到结合自由能。数据集的一部分与实验亲和力进行了验证，RMSE为1.75 kcal/mol。数据集包括非重叠的配体分割，用于评估模型泛化能力。ToxBench为开发结合亲和力预测模型提供了一个真实的测试平台。

ToxBench is an AB-FEP dataset focused on the human estrogen receptor α (ERα). It encompasses 8770 complex structures of ERα ligands, with the binding free energy of each structure computed via AB-FEP. A subset of this dataset was validated against experimental binding affinity, yielding a RMSE of 1.75 kcal/mol. The dataset includes non-overlapping ligand splits designed for evaluating model generalization ability. ToxBench provides a realistic testbed for developing binding affinity prediction models.

提供机构：

NVIDIA, Schrödinger

创建时间：

2025-07-12

原始信息汇总

数据集概述

基本信息

数据集名称: toxbench
许可证: CC BY-NC 4.0 (知识共享署名-非商业性使用 4.0 国际许可协议)

数据集配置

computational 配置
- 数据文件:
  - test 分割: toxbench_test.csv
  - validation 分割: toxbench_valid.csv
  - train 分割: toxbench_train.csv
experimental 配置
- 数据文件: experimental/experimental_comparison.csv

搜集汇总

数据集介绍

构建方式

ToxBench数据集的构建始于对人类雌激素受体α（ERα）靶点的配体化合物收集，整合了ChEMBL数据库和Diverse Unbiased Validation-Extended (DUD-E)数据集的信息。通过Schrödinger的蛋白质准备向导对ERα结构进行优化，并采用诱导拟合对接/分子动力学（IFD/MD）协议生成复合物结构。结合绝对结合自由能微扰（AB-FEP）方法，对每个复合物进行了1纳秒的分子动力学模拟，计算结合自由能。为确保数据质量，部分AB-FEP计算结果与实验测定的结合亲和力进行了验证，最终形成了包含8,770个ERα-配体复合物的数据集。

特点

ToxBench数据集专注于单一关键靶点ERα，提供了大规模且高精度的AB-FEP计算结合自由能数据。其特点包括非重叠的配体分割，确保模型评估的泛化能力，以及结合自由能值的广泛分布（-26至+9 kcal/mol）。此外，数据集通过实验验证的AB-FEP计算结果（RMSE为1.754 kcal/mol）确保了标签的可靠性，为机器学习模型提供了高质量的训练和测试基础。

使用方法

ToxBench数据集适用于开发和评估蛋白质-配体结合亲和力预测的机器学习模型。研究人员可利用其训练集（6,144个复合物）进行模型训练，验证集（1,317个复合物）进行超参数调优，测试集（1,309个复合物）进行最终性能评估。数据集支持多种评估指标，如Pearson相关系数（Rp）、决定系数（R²）、Spearman秩相关系数（ρ）和均方根误差（RMSE）。此外，数据集还可用于比较不同模型在单一靶点上的性能差异，促进更准确的结合亲和力预测方法的发展。

背景与挑战

背景概述

ToxBench是由NVIDIA和Schrödinger的研究团队于2025年推出的首个基于绝对结合自由能微扰（AB-FEP）计算的大规模数据集，专注于人类雌激素受体α（ERα）这一药物发现和毒性评估的关键靶点。该数据集包含8,770个ERα-配体复合物结构，其结合自由能通过高精度的AB-FEP方法计算，部分数据通过实验验证，均方根误差（RMSE）为1.75 kcal/mol。ToxBench的推出填补了机器学习（ML）在蛋白质-配体结合亲和力预测领域缺乏高可靠性数据的空白，旨在促进ML模型在药物发现中的实际应用。ERα作为内分泌信号传导的核心靶点，其调节与多种不良后果（如生殖障碍和激素依赖性癌症）密切相关，使得ToxBench在药物开发和毒性评估领域具有重要影响力。

当前挑战

ToxBench面临的挑战主要包括两方面：一是领域问题的挑战，即如何通过机器学习模型快速且准确地预测蛋白质-配体结合亲和力，以替代计算成本高昂的AB-FEP方法；二是构建过程中的挑战，包括如何确保AB-FEP计算的高精度与实验数据的一致性，以及如何处理ERα的构象多样性以生成多样化的复合物结构。此外，数据集的构建还需克服配体与蛋白质相互作用的复杂性，确保模型能够真正学习到蛋白质-配体相互作用的物理规律，而非依赖数据集的特定偏差。这些挑战使得ToxBench在推动ML模型的实际应用中具有重要的科学意义和技术难度。

常用场景

经典使用场景

ToxBench作为首个针对人类雌激素受体α（ERα）的大规模AB-FEP计算数据集，其经典使用场景主要集中于药物发现领域的虚拟筛选环节。在药物研发初期，研究人员需要快速评估大量化合物与靶标蛋白的结合能力，而ToxBench通过提供8,770个ERα-配体复合物的高精度结合自由能数据，为机器学习模型训练提供了理想的基准平台。该数据集特别适用于开发能够预测蛋白质-配体相互作用的新型算法，其单靶点密集标注特性有效避免了传统多靶点数据集存在的偏差问题。

解决学术问题

ToxBench解决了药物发现领域两个关键学术问题：一是传统实验测定结合亲和力耗时耗力且难以规模化的瓶颈，通过AB-FEP计算提供了接近实验精度的替代方案；二是现有数据集（如PDBBind）因稀疏性导致模型依赖配体或蛋白质单一特征的问题。该数据集通过集中标注单一靶点的数千个复合物，强制模型学习真实的蛋白质-配体相互作用机制，其1.75 kcal/mol的RMSE验证精度为开发可靠预测模型奠定了基础。这一突破显著提升了模型在新配体泛化能力评估方面的可信度。

衍生相关工作

ToxBench的发布催生了多个重要研究方向：基于其开发的DualBind模型创新性地结合MSE与DSM双损失函数，成为三维结构感知预测的新范式；后续研究扩展了类似构建方法至GPCR等关键靶点数据集；在方法学层面，该数据集促进了针对单靶点密集标注场景的专用算法开发，如几何等变网络在结合位点建模中的应用。这些衍生工作共同推动了计算药物发现从粗粒度预测向原子精度模拟的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集