malisam-dataset

Name: malisam-dataset
Creator: DeepFoldProtein
Published: 2025-09-16 03:34:14
License: 暂无描述

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/DeepFoldProtein/malisam-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MALISAM数据集是一个结构类似物基准，包含130对没有进化关系的结构对齐的蛋白质域。这个数据集是第一个专门用于评估类似物判别能力的基准。所有的对齐都是基于结构相似性手动校对的。

The MALISAM dataset is a structural analog benchmark, comprising 130 pairs of structurally aligned protein domains with no evolutionary relationship. This is the first benchmark specifically designed to evaluate the ability to discriminate structural analogs. All alignments were manually curated based on structural similarity.

提供机构：

DeepFoldProtein

创建时间：

2025-09-16

原始信息汇总

MALISAM 数据集概述

数据集基本信息

数据集名称：MALISAM
主要语言：英语
主要标签：蛋白质、序列比对、结构生物学、类似结构
任务类别：其他

数据集描述

MALISAM 是一个结构类似物基准数据集，包含非同源但具有相似三维结构的蛋白质 motif。

关键特性

包含 130 个结构比对域对，这些域对之间无进化关系
是首个明确评估类似物区分能力的基准数据集
比对结果仅基于结构相似性进行人工整理

数据特征

pair_id、group_id、set_name
seq1_id、seq2_id、seq1、seq2
ref_alignment：残基索引对列表（基于 0）
percent_identity：比对残基间的序列一致性
scop_labels：可选（通常为空）
meta：从原始文本文件中提取的可选注释

使用方式

python from datasets import load_dataset ds = load_dataset("DeepFoldProtein/MALISAM", name="all", split="test") ex = ds[0] print(ex["pair_id"], ex["ref_alignment"][:5])

引用信息

bibtex @article{Cheng2007MALISAM, title = {MALISAM: a database of structurally analogous motifs in proteins}, volume = {36}, ISSN = {1362-4962}, url = {http://dx.doi.org/10.1093/nar/gkm698}, DOI = {10.1093/nar/gkm698}, number = {Database}, journal = {Nucleic Acids Research}, publisher = {Oxford University Press (OUP)}, author = {Cheng, H. and Kim, B.-H. and Grishin, N. V.}, year = {2007}, month = dec, pages = {D211--D217} }

搜集汇总

数据集介绍

构建方式

在结构生物学领域，MALISAM数据集的构建基于严格的手工筛选流程。研究者从蛋白质结构数据库中选取130对无进化关联但具有三维结构相似性的结构域对，通过专业工具进行结构比对，并人工验证每个残基对的对应关系，确保比对结果仅反映结构相似性而非序列同源性。

使用方法

研究人员可通过HuggingFace数据集库直接加载MALISAM数据集进行结构类比分析。使用load_dataset函数指定DeepFoldProtein/MALISAM仓库名和all配置即可获取测试集，通过索引访问可提取配对标识符和参考比对信息，这些数据特别适用于蛋白质结构比对算法的性能评估与验证。

背景与挑战

背景概述

蛋白质结构生物学领域长期面临着非同源结构相似性识别的科学难题。2007年，由Cheng H.、Kim B.-H.和Grishin N. V.等研究人员在《核酸研究》期刊上发布了MALISAM数据集，这是首个专门针对结构类似物设计的基准数据库。该数据集包含130对经过人工精确比对的无进化关联蛋白质结构域，通过严格基于三维结构相似性的手动标注，为蛋白质结构类比研究提供了重要基准，显著推动了结构生物学和计算生物学领域对蛋白质功能与结构关系的深层理解。

当前挑战

MALISAM数据集致力于解决蛋白质结构类比识别这一核心挑战，特别是在缺乏序列同源性情况下准确识别结构相似 motifs 的难题。其构建过程中面临多重挑战：首先需要从大量蛋白质结构中筛选出真正无进化关联但结构相似的配对，这要求研究者具备深厚的结构生物学知识；其次，人工比对残基时需要克服不同蛋白质拓扑结构的复杂性，确保比对结果纯粹基于三维空间结构相似性而非序列信息；最后还需建立可靠的评估标准以验证类比识别的准确性，这些挑战使得数据集的构建成为一项高度专业化的科学工程。

常用场景

经典使用场景

在结构生物学领域，MALISAM数据集作为评估蛋白质结构类比检测算法的基准工具，其经典应用场景集中于非同源蛋白质结构相似性分析。研究者通过该数据集提供的130组人工校准结构对齐对，能够有效测试算法在缺乏进化关联条件下识别三维结构相似性的能力，为蛋白质折叠空间探索提供关键数据支撑。

解决学术问题

该数据集解决了结构生物学中长期存在的类比结构识别难题，突破了传统序列同源性分析的限制。通过提供严格人工校准的非同源结构对齐数据，使研究者能够量化评估结构比对算法的精确度，推动了对蛋白质折叠收敛进化机制的理解，为研究蛋白质功能与结构的深层关系提供了重要实验平台。

实际应用

在实际应用层面，MALISAM数据集被广泛应用于药物靶点发现和蛋白质设计领域。制药公司利用该数据集训练的结构类比识别模型，能够发现具有相似活性位点但不同序列背景的蛋白质，从而加速新药研发进程。蛋白质工程师则借助这些数据设计具有特定结构特征的新型蛋白质分子。

数据集最近研究