five

deer

收藏
Hugging Face2025-05-19 更新2025-05-20 收录
下载链接:
https://huggingface.co/datasets/cuhkaih/deer
下载链接
链接失效反馈
官方服务:
资源简介:
DEER(密集酶检索)数据集提供了一个使用学习到的密集向量表示(嵌入)来寻找功能相关的人类-细菌同工酶的方法。该数据集包含5849个酶结构,格式为PDB,其中包括1636个作为模板的真核生物酶和4213个作为数据库的细菌酶。此数据集可用于同工酶检索的DEER模型的示例应用。
创建时间:
2025-05-17
搜集汇总
数据集介绍
main_image_url
构建方式
在结构生物信息学领域,DEER数据集的构建采用了前沿的密集向量表示技术,通过深度学习模型将酶的三维结构信息编码为高维嵌入向量。该数据集收录了5,849个PDB格式的酶结构,其中1,636个真核生物酶作为检索模板,4,213个细菌酶构成目标数据库,所有结构均经过严格的生物信息学流程验证与标准化处理。
特点
该数据集的核心特征在于其专注于人类与细菌同工酶的功能关联性研究,通过嵌入向量的相似性度量实现跨物种酶功能的精准匹配。其结构数据覆盖了真核与细菌两大生命域,且每个酶结构均附带完整的元数据注释,为微生物组与宿主相互作用机制的研究提供了高信噪比的实验基础。
使用方法
研究者可通过GitHub仓库提供的完整代码库与教程,加载预训练的DEER模型对酶结构嵌入向量进行相似性检索。典型工作流包括:将查询酶结构输入模型生成嵌入向量,在细菌酶数据库中执行近邻搜索,最终通过功能注释验证检索结果的生物学意义。该流程支持大规模并行计算,适用于宏基因组数据的功能注释探索。
背景与挑战
背景概述
酶功能研究在生物信息学领域具有核心地位,其结构相似性与功能关联性分析对理解人类肠道微生物组机制至关重要。DEER数据集由Liu等人于2025年构建,依托Apache 2.0开源协议发布,旨在通过深度学习嵌入技术实现人类与细菌同工酶的密集检索。该数据集收录了5,849个酶蛋白结构,涵盖1,636个真核生物酶模板与4,213个细菌酶数据库,为探索结构蛋白质组在微生物生态中的功能分化提供了标准化基准。
当前挑战
该数据集致力于解决酶功能相似性检索的跨物种匹配难题,需克服同源序列低保守性导致的嵌入表示偏差。构建过程中面临多源生物结构数据整合的复杂性,包括PDB格式异构数据的标准化处理与真核-原核酶结构拓扑对齐的技术瓶颈。同时,大规模酶结构嵌入向量的维度优化与检索效率平衡亦是核心挑战。
常用场景
经典使用场景
在酶功能研究领域,DEER数据集通过稠密向量表示方法,为人类与细菌同工酶的检索任务提供了标准化基准。该数据集包含5849个酶结构,其中1636个真核生物酶作为模板,4213个细菌酶构成检索数据库,典型应用于构建酶结构相似性检索流程,通过计算嵌入向量的空间距离实现功能相关酶的精准匹配。
实际应用
在生物医药实践中,该数据集支持药物靶点发现与益生菌开发。研究人员可利用酶结构检索结果预测微生物代谢途径,辅助设计针对特定酶功能的调控策略,例如开发微生物组靶向疗法或优化工业酶制剂,为精准医疗和生物制造提供数据支撑。
衍生相关工作
基于该数据集衍生的经典工作包括多模态酶功能预测模型和跨物种代谢网络重构算法。这些研究进一步拓展了结构嵌入在宏基因组分析中的应用,催生了如酶反应动力学预测、微生物群落功能注释等创新方向,形成了结构引导的微生物功能挖掘技术体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作