five

MotifBench

收藏
arXiv2025-02-18 更新2025-02-25 收录
下载链接:
https://github.com/blt2114/MotifBench
下载链接
链接失效反馈
官方服务:
资源简介:
MotifBench是一个包含30个测试问题的蛋白质设计基准,用于解决motif-scaffolding问题。这些问题是从实验结构中提取的,涵盖了从五个残基到几十个残基不等的motif。数据集由上海交通大学生物信息学与生物统计学系、清华大学生命科学学院等机构的研究人员创建,旨在为蛋白质设计研究提供一个标准化的评价平台。

MotifBench is a protein design benchmark consisting of 30 test problems targeting the motif-scaffolding task. These problems are extracted from experimental structures, covering motifs ranging from 5 residues to dozens of residues. The dataset was created by researchers from the Department of Bioinformatics and Biostatistics at Shanghai Jiao Tong University, School of Life Sciences at Tsinghua University, and other institutions, aiming to provide a standardized evaluation platform for protein design research.
提供机构:
上海交通大学生物信息学与生物统计学系,清华大学生命科学学院,牛津大学计算机科学系,华盛顿大学生化系,麻省理工学院计算机科学系,微软研究院,斯坦福大学统计系,斯坦福数据科学中心
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
构建方式
MotifBench 数据集的构建旨在为蛋白质设计中的基序-支架问题提供一个标准化基准。该数据集由30个基准问题组成,每个问题都精确指定了基序和支架的几何坐标,并提供了评估指标。基序由蛋白质骨架原子的坐标定义,支架则由包含基序的蛋白质结构的骨架原子坐标定义。为了评估支架集,数据集引入了三个指标:独特解决方案的数量、解决方案的新颖性和总体成功率。独特解决方案的数量是通过将预测的支架结构聚类来计算的,新颖性是通过比较解决方案与蛋白质数据银行中现有结构的距离来评估的,成功率则是成功支架的比例。这些指标共同构成了一个名为“MotifBench分数”的评分系统,用于衡量基序-支架方法的性能。
特点
MotifBench 数据集的特点在于其挑战性和多样性。与早期的基准相比,MotifBench 中的测试案例更具挑战性,包括一些已知解决方案但当前最先进的方法未能识别出任何解决方案的问题。数据集涵盖了不同长度和结构的基序,包括单个连续段、双连续段和多连续段基序。此外,数据集还包括来自孤儿蛋白的基序,以减少数据驱动方法可能存在的过度拟合问题。这些特点使得 MotifBench 成为评估和比较基序-支架方法性能的宝贵资源。
使用方法
使用 MotifBench 数据集时,首先需要生成支架结构,这可以通过使用如 ProteinMPNN 等固定骨架序列设计方法来完成。然后,使用 ESMFold 等结构预测方法来预测生成的序列对应的蛋白质骨架结构。评估过程包括计算基序维持度、支架有效性和解决方案新颖性等指标。为了确保结果的复现性和可比性,建议在报告中提供计算支架所需的计算成本,并在必要时说明针对特定问题的方法调整。MotifBench 的评估脚本和相关工具可以在 github.com/blt2114/MotifBench 上找到,并提供详细的输入格式说明和计算要求。
背景与挑战
背景概述
蛋白质设计领域的研究人员常常面临一个核心问题:给定一个具有特定生化功能的原子坐标(称为motif),如何识别包含该motif并保持其几何结构的多种蛋白质结构(称为scaffold)。近年来,在蛋白质结构预测和固定骨架序列设计方法的计算评估方面取得了显著进展。然而,由于出版物之间评估策略的显著差异,结果的可比性受到了阻碍,可重复性受到了挑战,并且稳健的进展受到了阻碍。为了解决这个问题,研究人员介绍了MotifBench数据集,它包括一个精确指定的管道和评估指标,30个基准问题,以及这个基准的实现和一个排行榜。MotifBench的测试用例比早期的基准更具挑战性,包括一些已知解决方案但最先进的方法无法识别任何解决方案的蛋白质设计问题。
当前挑战
MotifBench数据集面临的挑战包括:1) 所解决的领域问题:蛋白质设计中motif-scaffolding问题的挑战;2) 构建过程中所遇到的挑战:评估策略的可比性和可重复性,以及评估流程中对随机性的稳定性。这些挑战需要研究人员在评估方法上进行改进,以提高结果的准确性和可靠性。
常用场景
经典使用场景
在蛋白质设计中,模体支架问题是核心任务之一:给定一个具有预期生化功能的几何原子坐标(模体),任务是识别包含模体并保持其几何结构的多样蛋白质结构(支架)。MotifBench数据集提供了30个基准问题,每个问题都包含一个特定的模体,用于评估模体支架方法的性能。该数据集为研究者提供了一个标准化、可复现的评估平台,用于比较和改进模体支架方法。
实际应用
MotifBench数据集的实际应用场景包括蛋白质设计、蛋白质工程和药物设计等领域。通过对模体支架方法的评估和改进,研究者可以设计出具有特定功能的蛋白质,用于治疗疾病、生产药物或进行生物催化等。
衍生相关工作
MotifBench数据集衍生了许多相关工作,例如RFdiffusion、ProteinMPNN和ESMFold等。这些工作利用MotifBench数据集进行评估和改进,提高了模体支架方法的性能,为蛋白质设计领域带来了新的突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作