five

openadmet/pxr-challenge-train-test

收藏
Hugging Face2026-05-06 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/openadmet/pxr-challenge-train-test
下载链接
链接失效反馈
官方服务:
资源简介:
一个高质量的实验数据集,用于预测人类孕烷X受体(PXR)的诱导,包含超过11,000种通过高保真内部实验筛选的化合物。这是目前最大的公开PXR活性数据集,作为OpenADMET PXR Induction Blind Challenge的一部分发布。数据集包含多个配置:默认配置(主要实验训练集和513个化合物的盲测集)、反实验配置(PXR-null反实验训练数据)、结构配置(78个片段大小的分子,带有X射线晶体结构)和单浓度配置(单浓度筛选数据,log2 fold change)。

A high-quality experimental dataset for predicting human Pregnane-X Receptor (PXR) induction, comprising over 11,000 compounds screened using a high-fidelity in-house assay. This is the largest publicly available PXR activity dataset, released as part of the OpenADMET PXR Induction Blind Challenge. The dataset includes multiple configurations: default config (primary assay training set and a 513-compound blinded test set), counter_assay config (PXR-null counter-assay training data), structure config (78 fragment-sized molecules with X-ray crystal structures), and single_concentration config (single-concentration screening data, log2 fold change).
提供机构:
openadmet
搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学与药物发现领域,PXR挑战训练/测试数据集的构建依托于高保真内部实验筛选流程。该数据集汇集了超过一万一千种化合物,通过严谨的体外实验测定其对人孕烷X受体诱导活性的影响,形成了当前公开可用的最大规模PXR活性数据集合。数据采集过程遵循标准化实验协议,确保了生物活性度量指标如pEC50与Emax的准确性与一致性,为后续的机器学习建模提供了可靠的基础。
使用方法
利用Hugging Face的datasets库,研究者可便捷加载不同配置的数据子集,例如通过指定配置名称分别获取主测定训练数据、对照测定数据或结构数据。数据以CSV格式存储,支持直接使用pandas进行读取与处理,便于整合至现有的机器学习工作流中。该数据集专为OpenADMET盲测挑战设计,适用于构建预测PXR诱导活性的回归模型,并可通过挑战平台进行模型性能的客观评估。
背景与挑战
背景概述
在计算化学与药物发现领域,准确预测化合物对人体孕烷X受体(PXR)的诱导活性,是评估药物代谢与潜在毒性风险的关键环节。OpenADMET项目于2026年发布了名为pxr-challenge-train-test的数据集,作为其公开盲测挑战的核心资源。该数据集由OpenADMET团队构建,汇集了超过11,000种化合物通过高保真内部实验筛选获得的数据,成为当前公开可用的最大规模PXR活性数据集。其核心研究问题聚焦于利用机器学习模型精准预测PXR诱导的剂量-反应关系(pEC50与Emax),旨在推动ADMET(吸收、分布、代谢、排泄和毒性)性质预测方法的创新,为早期药物研发中的安全性评估提供可靠的计算工具。
当前挑战
该数据集致力于解决药物发现中PXR诱导预测这一复杂问题,其挑战主要体现在两方面。在领域问题层面,PXR诱导机制涉及复杂的配体-受体相互作用与信号通路,化合物结构多样性高,且活性表现常呈现非线性关系,使得构建具有高泛化能力的预测模型尤为困难。在数据集构建过程中,挑战包括确保实验数据的高通量筛选质量与一致性,整合多配置数据(如反测定、单浓度筛选及晶体结构信息)以提供全面视角,以及设计盲测评估框架来客观验证模型在未知化合物上的预测性能,避免过拟合与偏差。
常用场景
经典使用场景
在计算化学与药物发现领域,PXR挑战数据集为预测化合物对人类孕烷X受体诱导活性提供了基准平台。该数据集通过包含超过一万一千种化合物的高保真实验数据,经典地应用于构建与验证定量构效关系模型及机器学习算法,以准确评估分子诱导PXR的效力与最大效应,从而优化先导化合物的筛选流程。
解决学术问题
该数据集有效应对了药物代谢研究中PXR诱导预测数据稀缺的学术困境,为探究核受体激活机制与药物-药物相互作用提供了大规模、高质量的实验基准。其意义在于推动了ADMET性质计算预测方法的革新,通过公开盲测挑战形式,促进了跨学科合作,提升了模型的可解释性与泛化能力,对早期药物研发中的毒性规避具有深远影响。
实际应用
在实际药物研发中,该数据集直接应用于候选化合物的早期安全性评估,帮助研究人员识别可能引起肝酶诱导的药物分子,从而降低临床失败风险。制药企业可利用其训练内部预测工具,加速高失败率阶段的化合物筛选,并整合反测定与结构数据以深入理解配体-受体相互作用,指导更安全的分子设计。
数据集最近研究
最新研究方向
在计算化学与药物发现领域,孕烷X受体(PXR)诱导预测是评估化合物药物代谢与毒性风险的关键环节。OpenADMET PXR Induction Blind Challenge数据集作为当前最大规模的公开PXR活性数据,其前沿研究聚焦于整合多模态信息以提升预测精度。学者们正探索结合X射线晶体结构数据与高通量筛选结果,利用图神经网络与注意力机制解析分子片段与受体相互作用的微观机制。该挑战赛的开展推动了ADMET性质预测模型向可解释性与泛化能力迈进,为早期药物筛选中的脱靶效应与安全性评估提供了重要数据基础,有望加速低毒性候选药物的开发进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作