malidup-dataset
收藏Hugging Face2025-09-16 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/DeepFoldProtein/malidup-dataset
下载链接
链接失效反馈官方服务:
资源简介:
MALIDUP是一个专门针对同一多肽链上的重复域对构建的蛋白质结构对齐数据集。该数据集包含了241对由专家基于结构相似性手动校对的重复域对,适用于评估在远缘同源场景下对齐方法的性能。
提供机构:
DeepFoldProtein
创建时间:
2025-09-16
原始信息汇总
MALIDUP 数据集概述
基本信息
- 数据集名称: MALIDUP
- 语言: 英语
- 标签: 蛋白质、序列比对、结构生物学、结构域复制
- 任务类别: 其他
- 配置名称: all
- 配置描述: 所有经过人工筛选的复制结构域比对
数据集描述
- 数据来源: 来自同一蛋白质链的复制结构域对
- 数据规模: 241个复制结构域对
- 比对方式: 基于结构相似性的专家人工筛选比对
- 应用场景: 用于评估远程同源情况下的比对方法
数据特征
- 标识字段:
pair_id,group_id,set_name - 序列信息:
seq1_id,seq2_id,seq1,seq2 - 参考比对:
ref_alignment(基于0索引的比对残基索引对列表) - 序列相似性:
percent_identity(比对位置的序列一致性百分比) - 结构分类:
scop_labels(SCOP分类、折叠、超家族、家族等信息) - 元数据:
meta(附加元数据,JSON字符串格式)
数据文件
- 文件路径: all.jsonl
- 数据分割: 测试集
使用方式
python from datasets import load_dataset ds = load_dataset("DeepFoldProtein/MALIDUP", name="all", split="test") ex = ds[0] print(ex["seq1_id"], ex["seq2_id"], ex["ref_alignment"][:5])
引用信息
bibtex @article{Cheng2007, title = {MALIDUP: A database of manually constructed structure alignments for duplicated domain pairs}, volume = {70}, ISSN = {1097-0134}, url = {http://dx.doi.org/10.1002/prot.21783}, DOI = {10.1002/prot.21783}, number = {4}, journal = {Proteins: Structure, Function, and Bioinformatics}, publisher = {Wiley}, author = {Cheng, Hua and Kim, Bong‐Hyun and Grishin, Nick V.}, year = {2007}, month = oct, pages = {1162--1166} }
搜集汇总
数据集介绍

构建方式
在结构生物学领域,MALIDUP数据集通过专家手动构建的方式,精选了来自同一多肽链的241对重复结构域。该数据集基于结构相似性进行比对,确保每一对结构域都经过严格的结构对齐验证,从而为远程同源场景下的比对方法评估提供了可靠基础。
特点
该数据集具备丰富的注释信息,包括序列标识符、参考比对残基索引对、序列一致性百分比以及SCOP分类标签等。其独特的结构域重复对设计,特别适用于研究远程同源关系下的蛋白质结构比对问题,为算法评估提供了高度专业化的数据支持。
使用方法
研究人员可通过Hugging Face平台快速加载数据集,利用提供的序列标识符和参考比对信息进行蛋白质结构比对算法的验证与优化。数据集以JSONL格式存储,支持直接访问比对坐标和元数据,便于集成到机器学习流程中进行分析和模型训练。
背景与挑战
背景概述
蛋白质结构生物学领域中,结构域复制现象是分子进化的重要机制。MALIDUP数据集由Hua Cheng、Bong-Hyun Kim和Nick V. Grishin等研究人员于2007年创建,旨在提供经过专家手工校正的结构比对基准。该数据集收录来自同一多肽链的241对复制结构域,通过结构相似性进行精确比对,为研究远程同源关系提供了重要资源,对蛋白质结构预测和进化分析领域产生了深远影响。
当前挑战
该数据集致力于解决蛋白质结构域复制比对中的特殊挑战,特别是在序列相似性较低但结构保持同源性的复杂场景下的精确比对问题。构建过程中面临的主要挑战包括:需要专家通过结构比对手动校正自动比对结果,确保在低序列一致性情况下仍能获得可靠的参考比对;同时需处理结构域边界界定和复制事件识别中的模糊性,以及维持数据集中各个复制对之间的进化距离多样性。
常用场景
经典使用场景
在结构生物学领域,MALIDUP数据集作为评估蛋白质序列比对算法的黄金标准,专门针对同一多肽链中重复结构域的远程同源关系。研究者通过该数据集验证比对方法在低序列相似性条件下的性能,其精心构建的结构比对结果为算法敏感性测试提供了可靠基准。
解决学术问题
该数据集有效解决了远程同源检测中的关键难题,为研究蛋白质结构功能演化提供了重要支撑。通过精确标注的重复结构域比对,它帮助学者突破序列相似性限制,揭示深层进化关系,推动了对蛋白质结构域复制机制的理解,显著促进了计算生物学领域的方法学发展。
衍生相关工作
基于MALIDUP数据集衍生出多项经典研究,包括深度学习方法在远程同源检测中的应用探索,以及新型比对算法如HMMER和HHpred的性能优化工作。这些研究不仅推动了蛋白质结构比对技术的发展,还催生了新一代生物信息学工具的开发与完善。
以上内容由遇见数据集搜集并总结生成



