ligandmpnn-results

Hugging Face2026-02-08 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/joeyisgoed/ligandmpnn-results

下载链接

链接失效反馈

官方服务：

资源简介：

LigandMPNN设计结果数据集包含来自LigandMPNN HF Space的自动保存结果。数据集以JSON文件形式存储在'runs/'文件夹中，每个文件代表一次运行，文件名遵循特定命名规则。每个JSON文件详细记录了运行的时间戳、PDB名称、模型类型、噪声水平、温度设置、每个温度的序列数量、种子、设计链、固定残基、重构细节、原始序列以及设计的序列及其属性（如名称、序列、置信度、序列恢复率、温度和长度）。该数据集适用于蛋白质设计和分析相关任务。

创建时间：

2026-02-07

搜集汇总

数据集介绍

构建方式

在蛋白质工程领域，数据集的构建往往依赖于自动化工具的高通量模拟。LigandMPNN-results数据集正是通过LigandMPNN这一先进的蛋白质序列设计模型，在Hugging Face Spaces平台上自动运行并保存结果而生成的。每次设计任务均以特定蛋白质结构（PDB ID）为输入，结合用户设定的噪声水平、温度参数及固定残基等条件，模型生成多组设计序列。运行结果被系统性地存储为JSON文件，每个文件包含时间戳、原始序列、设计参数以及生成的设计序列及其置信度、序列恢复率等详细指标，形成了结构化的设计记录集合。

使用方法

研究人员可利用此数据集进行多方面的生物信息学分析。通过解析`runs/`目录下的JSON文件，可以提取不同噪声水平、温度参数下生成的设计序列及其特性，用于研究序列设计模型的稳健性与多样性。数据集中的置信度与序列恢复率指标可用于评估和比较不同设计策略的优劣。此外，固定的残基列表和重构信息允许用户深入探究局部结构约束对全局设计的影响。这些结构化数据可直接用于机器学习模型的训练或验证，亦或作为蛋白质工程项目中启发新实验设计的参考库。

背景与挑战

背景概述

在计算生物学与蛋白质工程领域，蛋白质设计是前沿研究方向，旨在通过理性设计生成具有特定功能或稳定性的新型蛋白质序列。LigandMPNN-results数据集源于LigandMPNN工具的应用成果，该工具由相关研究团队开发，专注于配体感知的蛋白质序列设计，核心研究问题在于如何高效生成能够结合特定小分子配体的蛋白质变体。自2020年代以来，此类方法通过结合深度学习与结构信息，显著推动了蛋白质功能设计的自动化进程，对药物发现与酶工程等领域产生了深远影响。

当前挑战

该数据集所针对的领域挑战在于蛋白质-配体结合界面的精确设计，这要求模型不仅预测稳定的蛋白质折叠，还需确保序列与配体间的特异性相互作用，涉及复杂的能量景观与多目标优化。在构建过程中，挑战包括处理大规模蛋白质结构数据的异构性、确保设计序列的可折叠性与功能性验证，以及管理实验生成的高通量结果，需克服数据标准化与可重复性等障碍。

常用场景

经典使用场景

在计算结构生物学领域，蛋白质设计正经历着从传统实验方法向数据驱动范式的深刻转变。LigandMPNN-results数据集作为LigandMPNN模型自动生成的序列设计结果集合，其经典使用场景集中于为研究人员提供大规模、标准化的蛋白质-配体复合物再设计数据。这些数据主要用于训练和验证新一代的蛋白质序列生成模型，使模型能够学习在保持或优化蛋白质骨架结构的同时，针对特定配体口袋进行序列设计的内在规律，从而加速了可控蛋白质工程的研究进程。

解决学术问题

该数据集的核心学术价值在于系统性地解决了蛋白质理性设计中的几个关键挑战。它通过提供包含不同噪声水平、采样温度和固定残基策略的设计结果，为量化评估序列设计算法的鲁棒性与多样性建立了基准。这直接助力于研究如何平衡序列的创新性与结构的保守性，以及如何精确控制设计过程以针对特定功能位点进行优化，从而推动了蛋白质设计从艺术走向可预测科学的理论发展。

实际应用

超越基础研究，LigandMPNN-results数据集在生物技术和药物发现领域展现出广阔的应用前景。其生成的设计序列可直接作为候选分子，用于开发具有更高亲和力或特异性的新型酶、抗体或受体蛋白。在工业酶改造和新型疗法设计中，研究人员可以利用此数据集快速筛选出有望改善催化效率或靶向结合能力的蛋白质变体，显著缩短了从概念到实验验证的周期，为生物制造和精准医疗提供了高效的源头创新工具。

数据集最近研究