openadmet/pxr-challenge-train-test

Name: openadmet/pxr-challenge-train-test
Creator: openadmet
Published: 2026-05-06 08:06:49
License: 暂无描述

Hugging Face2026-05-06 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/openadmet/pxr-challenge-train-test

下载链接

链接失效反馈

官方服务：

资源简介：

一个高质量的实验数据集，用于预测人类孕烷X受体（PXR）的诱导，包含超过11,000种通过高保真内部实验筛选的化合物。这是目前最大的公开PXR活性数据集，作为OpenADMET PXR Induction Blind Challenge的一部分发布。数据集包含多个配置：默认配置（主要实验训练集和513个化合物的盲测集）、反实验配置（PXR-null反实验训练数据）、结构配置（78个片段大小的分子，带有X射线晶体结构）和单浓度配置（单浓度筛选数据，log2 fold change）。

A high-quality experimental dataset for predicting human Pregnane-X Receptor (PXR) induction, comprising over 11,000 compounds screened using a high-fidelity in-house assay. This is the largest publicly available PXR activity dataset, released as part of the OpenADMET PXR Induction Blind Challenge. The dataset includes multiple configurations: default config (primary assay training set and a 513-compound blinded test set), counter_assay config (PXR-null counter-assay training data), structure config (78 fragment-sized molecules with X-ray crystal structures), and single_concentration config (single-concentration screening data, log2 fold change).

提供机构：

openadmet

搜集汇总

数据集介绍

构建方式

在计算化学与药物发现领域，PXR挑战训练/测试数据集的构建依托于高保真内部实验筛选流程。该数据集汇集了超过一万一千种化合物，通过严谨的体外实验测定其对人孕烷X受体诱导活性的影响，形成了当前公开可用的最大规模PXR活性数据集合。数据采集过程遵循标准化实验协议，确保了生物活性度量指标如pEC50与Emax的准确性与一致性，为后续的机器学习建模提供了可靠的基础。

使用方法

利用Hugging Face的datasets库，研究者可便捷加载不同配置的数据子集，例如通过指定配置名称分别获取主测定训练数据、对照测定数据或结构数据。数据以CSV格式存储，支持直接使用pandas进行读取与处理，便于整合至现有的机器学习工作流中。该数据集专为OpenADMET盲测挑战设计，适用于构建预测PXR诱导活性的回归模型，并可通过挑战平台进行模型性能的客观评估。

背景与挑战

背景概述

在计算化学与药物发现领域，准确预测化合物对人体孕烷X受体（PXR）的诱导活性，是评估药物代谢与潜在毒性风险的关键环节。OpenADMET项目于2026年发布了名为pxr-challenge-train-test的数据集，作为其公开盲测挑战的核心资源。该数据集由OpenADMET团队构建，汇集了超过11,000种化合物通过高保真内部实验筛选获得的数据，成为当前公开可用的最大规模PXR活性数据集。其核心研究问题聚焦于利用机器学习模型精准预测PXR诱导的剂量-反应关系（pEC50与Emax），旨在推动ADMET（吸收、分布、代谢、排泄和毒性）性质预测方法的创新，为早期药物研发中的安全性评估提供可靠的计算工具。

当前挑战

该数据集致力于解决药物发现中PXR诱导预测这一复杂问题，其挑战主要体现在两方面。在领域问题层面，PXR诱导机制涉及复杂的配体-受体相互作用与信号通路，化合物结构多样性高，且活性表现常呈现非线性关系，使得构建具有高泛化能力的预测模型尤为困难。在数据集构建过程中，挑战包括确保实验数据的高通量筛选质量与一致性，整合多配置数据（如反测定、单浓度筛选及晶体结构信息）以提供全面视角，以及设计盲测评估框架来客观验证模型在未知化合物上的预测性能，避免过拟合与偏差。

常用场景

经典使用场景

在计算化学与药物发现领域，PXR挑战数据集为预测化合物对人类孕烷X受体诱导活性提供了基准平台。该数据集通过包含超过一万一千种化合物的高保真实验数据，经典地应用于构建与验证定量构效关系模型及机器学习算法，以准确评估分子诱导PXR的效力与最大效应，从而优化先导化合物的筛选流程。

解决学术问题

该数据集有效应对了药物代谢研究中PXR诱导预测数据稀缺的学术困境，为探究核受体激活机制与药物-药物相互作用提供了大规模、高质量的实验基准。其意义在于推动了ADMET性质计算预测方法的革新，通过公开盲测挑战形式，促进了跨学科合作，提升了模型的可解释性与泛化能力，对早期药物研发中的毒性规避具有深远影响。

实际应用

在实际药物研发中，该数据集直接应用于候选化合物的早期安全性评估，帮助研究人员识别可能引起肝酶诱导的药物分子，从而降低临床失败风险。制药企业可利用其训练内部预测工具，加速高失败率阶段的化合物筛选，并整合反测定与结构数据以深入理解配体-受体相互作用，指导更安全的分子设计。

数据集最近研究