five

pxr-challenge-cofolding

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/dargason/pxr-challenge-cofolding
下载链接
链接失效反馈
官方服务:
资源简介:
PXR Challenge Cofolding 是一个专注于 PXR(孕烷 X 受体)蛋白-配体系统共折叠预测的数据集,旨在为计算生物学和药物发现领域提供基准测试和模型评估资源。数据集包含多个组成部分:1) input_data 文件夹提供原始输入数据,包括配体的 SMILES 字符串、重新精修的蛋白质 PDB 文件、人类 PXR 蛋白序列以及多序列比对(MSA)文件;2) pdb64 文件夹包含针对一个包含 70 个系统的 PDB64 晶体结构集的共折叠预测结果;3) structure_challenge 文件夹针对一个更大的、包含 184 个系统的 PXR 结构挑战集,提供共折叠预测结果和运行所需的输入文件;4) activity_challenge 文件夹包含针对活性挑战的单副本共折叠预测。整体涵盖从原始输入到不同规模测试集的预测产物,适用于蛋白质-配体对接、共折叠结构预测、结合位点分析以及机器学习模型在结构生物信息学中的训练与验证等任务。数据以文件目录形式组织,并附有数据集清单和校验文件以确保完整性。

PXR Challenge Cofolding is a dataset focused on co-folding prediction for PXR (pregnane X receptor) protein-ligand systems, designed to provide benchmarking and model evaluation resources for computational biology and drug discovery. The dataset includes multiple components: 1) The input_data folder provides raw input data, including ligand SMILES strings, refined protein PDB files, human PXR protein sequences, and multiple sequence alignment (MSA) files; 2) The pdb64 folder contains co-folding prediction results for a PDB64 crystal structure set comprising 70 systems; 3) The structure_challenge folder offers co-folding predictions and necessary input files for a larger PXR structure challenge set of 184 systems; 4) The activity_challenge folder includes single-copy co-folding predictions for activity challenges. Overall, it covers from raw input to prediction outputs across different scale test sets, suitable for tasks such as protein-ligand docking, co-folding structure prediction, binding site analysis, and training and validation of machine learning models in structural bioinformatics. The data is organized in file directories, accompanied by dataset manifests and checksum files to ensure integrity.
创建时间:
2026-05-16
原始信息汇总

数据集概述:PXR Challenge Cofolding

该数据集专注于 PXR(孕烷X受体)蛋白-配体系统的共折叠预测,提供了一系列预测结构与输入数据。

核心内容

  • 预测目标:针对 PXR 蛋白与配体复合物的共折叠(cofolding)预测。
  • 技术工具:涉及 Boltz2、Chai-1、OpenFold3 等共折叠预测模型。

数据文件夹结构与内容

数据集包含以下四个主要文件夹:

  1. input_data(输入数据)

    • 包含原始 SMILES 字符串、精炼后的 PDB 输入文件、hPXR 氨基酸序列以及多序列比对(MSA)文件。
  2. pdb64(PDB64 晶体集预测)

    • 针对包含 70 个系统的 PDB64 晶体集,提供了共折叠预测结果。
  3. structure_challenge(结构挑战集预测)

    • 针对包含 184 个系统的 PXR 结构挑战集,提供了共折叠预测结果及其运行输入文件。
  4. activity_challenge(活性挑战集预测)

    • 提供了单副本活性挑战集的共折叠预测结果。

其他文件

  • dataset_manifest.csv:数据集内容清单。
  • checksums.sha256:校验和文件。
  • 各文件夹内的清单文件:记录各文件夹的归档内容。

许可信息

  • 本数据集采用 CC-BY-4.0 许可证。
搜集汇总
数据集介绍
main_image_url
构建方式
PXR核受体的配体识别机制是药物设计中的关键挑战。该数据集聚焦于PXR蛋白-配体共折叠预测,系统整合了多源数据:首先纳入经再精炼的PDB晶体结构及hPXR序列与MSA文件作为基准输入,进而针对70体系的PDB64晶体集生成共折叠预测,同时覆盖184体系的PXR结构挑战集,并包含单拷贝活性挑战预测结果。所有数据通过标准化工具体系管理,包括数据集清单、SHA256校验和及逐文件夹摘要文件。
特点
该数据集的核心特色在于其层次化设计与多模态验证体系。数据划分覆盖晶体结构验证、构象采样挑战与活性预测三大场景,每个子集均保留原始SMILES、再精炼PDB及MSA文件,确保可复现性。预测输出依托Boltz2、Chai-1与OpenFold3等先进共折叠算法,形成可比较的基准结果。通过checksum校验机制保障数据完整性,且采用CC-BY-4.0协议促进学术共享。
使用方法
研究人员可直接从HuggingFace数据集库获取压缩包,解压后按目录结构提取所需子集。pdb64目录适用于验证共折叠算法在晶体环境中的重现能力,structure_challenge子集用于评估算法在构象多样性场景的泛化性能,activity_challenge则面向活性预测任务。建议优先阅读dataset_manifest.csv获取完整索引,并通过SHA256校验确保数据完整性。PXR序列与MSA文件可作为共折叠模型的标准化输入模板。
背景与挑战
背景概述
该数据集由研究团队于近期创建,聚焦于孕烷X受体(PXR)与配体共折叠预测领域。PXR作为核受体超家族成员,在药物代谢与解毒过程中发挥关键调控作用,其配体结合模式的精确预测对新药研发具有重要价值。数据集整合了70个晶体系统与184个结构挑战系统的共折叠预测结果,包含SMILES序列、精炼PDB结构、MSA文件等多模态数据,为蛋白质-配体共折叠模型的基准测试与性能评估提供了标准化资源。通过引入Boltz2、Chai-1、OpenFold3等先进预测框架的预测产物,该数据集系统性地推进了共折叠计算方法的可重复性与可靠性研究,在结构生物学与计算药物设计领域产生了显著影响。
当前挑战
当前领域面临的核心挑战在于蛋白质-配体共折叠预测的精度与泛化能力不足,尤其是面对PXR这种具有高度构象可塑性的核受体时,传统对接方法难以捕捉诱导契合效应。该数据集构建过程中遭遇了多重技术瓶颈:首先,PXR配体结合口袋的构象多样性使得晶体结构精炼与一致性配准异常复杂;其次,MSA构建时面临同源序列稀少导致的进化信息缺失问题;最后,多框架预测结果的异质化增加了基准测试的标准化难度,需要设计精细的元数据管理系统来保证不同来源预测产物的可比性与可重复性。
常用场景
经典使用场景
在计算结构生物学与药物发现交叉领域,pxr-challenge-cofolding数据集常用于评估和验证蛋白质-配体共折叠模型的预测能力。该数据集包含了PXR(孕烷X受体)这一与药物代谢和毒性密切相关的核受体家族成员的多种共折叠预测产物,包括经过精炼的PDB输入文件、原始SMILES表示、同源序列以及多序列比对文件。基于70个系统的PDB64晶体集与184个系统的结构挑战集,研究者能够系统性地测试如Boltz2、Chai-1以及OpenFold3等先进算法在复杂配体诱导的构象变化预测中的表现。该数据集的经典使用场景聚焦于对比不同模型对配体结合姿态的还原精度,从而为计算药物筛选和理性设计提供可靠的基准测试框架。
实际应用
在实际应用层面,pxr-challenge-cofolding数据集直接服务于新药研发早期阶段的先导化合物优化与脱靶效应风险评估。由于PXR的激活常导致药物-药物相互作用及代谢清除率异常,制药企业可利用该数据集的共折叠预测产物,快速筛选可能引起PXR结合的非目标化合物。具体而言,通过分析结构挑战集与活性挑战集中的配体-受体复合物预测结果,药物化学家能够提前规避因非特异性结合而引发的临床前毒性问题,从而降低药物研发的失败率。这一数据资源填补了从计算算法到产业落地的转化鸿沟,为加速安全有效的临床候选分子发现提供了可复用的技术桥梁。
衍生相关工作
该数据集的发布催生了一系列关于蛋白质-配体共折叠算法改进与基准评测的经典工作。基于该数据集中PDB64晶体集与结构挑战集的对比数据,研究者开发了针对PXR特异性结合模式的评分函数,并验证了Boltz2在预测高度可塑性结合口袋时的优势与局限。后续工作进一步整合了活性挑战集的单拷贝共折叠预测结果,构建了结合亲和力预测与构象采样效率的联合评价体系。此外,该数据集还激发了针对同源建模场景下共折叠不确定性的量化研究,推动了OpenFold3等模型在稀有骨架模式下的微调策略。这些衍生工作共同构成了一个围绕核受体共折叠预测的活跃学术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作