ESM2_embeddings_Human_Mouse

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/Darkadin/ESM2_embeddings_Human_Mouse

下载链接

链接失效反馈

官方服务：

资源简介：

ESM2-15B人类和小鼠蛋白质嵌入数据集包含了使用ESM2-15B模型为人类和小鼠蛋白质序列生成的5120维嵌入表示。数据集还包括了与嵌入表示直接相关的序列名称、访问号、来源生物体和GO注释等元数据。数据集旨在方便科研社区进行涉及蛋白质嵌入及其关联元数据分析的下游任务。

The ESM2-15B Human and Mouse Protein Embedding Dataset contains 5120-dimensional embedding representations generated using the ESM2-15B model for human and mouse protein sequences. The dataset also includes metadata directly associated with the embeddings, such as sequence names, accession numbers, source organisms, and GO annotations. This dataset is intended to facilitate the research community in conducting downstream tasks related to protein embedding and its associated metadata analysis.

创建时间：

2025-08-09

原始信息汇总

ESM2-15B Human/Mouse蛋白嵌入数据集概述

数据集基本信息

许可证: pddl
标签: biology, bioinformatics, llm, embeddings, protein
名称: ESM2-15B Human/Mouse embedding

数据来源与处理

输入序列: 来自Swiss-Prot/Uniprot的经过整理的蛋白质序列，仅保留至少有一个GO注释的蛋白质。
物种: Human和Mouse。
初始条目数: 552512。
生成嵌入的模型: ESM2-15B模型（facebook/esm2_t48_15B_UR50D）。

嵌入数据

嵌入维度: 5120。
唯一蛋白质嵌入数: 36132。

数据集内容

蛋白质嵌入文件 (ESM2_15B_Human_Mouse_Embeddings.npy)
- 格式: .npy
- 内容: Human和Mouse蛋白质的5120维嵌入。
解析后的元数据 (ESM2_15B_Human_Mouse_Metadata.csv.gz)
- 格式: .csv
- 列:
  - Entry: 蛋白质名称。
  - Accession: 登录号。
  - Organism: 来源生物体（Human或Mouse）。
  - GO annotations: 与该序列关联的GO注释（分号分隔的字符串）。
原始元数据 (Original_Metadata.tsv.gz)
- 格式: .tsv
- 内容: 从Swiss-Prot/Uniprot直接获取的扩展元数据。
源脚本 (ESM2_script.py)
- 格式: .py
- 内容: 从源数据生成嵌入的脚本。
分类分析 (ESM2_Classification.ipynb)
- 格式: Jupyter Notebook
- 内容: 解析嵌入和元数据以执行分类任务，包括PCA和UMAP分析。

数据集目的

为科学社区提供蛋白质嵌入及其相关元数据的下游任务分析支持。
嵌入具有高维度，由最新的蛋白质嵌入模型生成。

选择Human和Mouse的原因

它们是研究最深入的物种。
生成嵌入的计算量极大，耗时长达两周。

使用与引用

可自由保存、使用和重新分发。
引用本仓库将被赞赏。

其他说明

可添加外部元数据以增加模型中的信息。
未来可能探索为其他物种生成嵌入。

搜集汇总

数据集介绍

构建方式

在蛋白质组学研究领域，ESM2_embeddings_Human_Mouse数据集通过前沿的深度学习技术构建而成。研究者首先从Swiss-Prot/Uniprot数据库中获取经过人工审核的人类和小鼠蛋白质序列，筛选标准要求每个蛋白质至少含有一个GO注释。原始数据包含552,512条记录，最终保留36,132条具有GO注释的人类和小鼠蛋白质序列。采用ESM2-15B模型对这些精选序列进行嵌入表示，生成5120维的高维特征向量，整个过程在超级计算集群上耗时两周完成。

特点

该数据集最显著的特点是包含由当前最先进的蛋白质语言模型生成的超高维嵌入表示。每个蛋白质样本不仅配备5120维的深度特征向量，还完整保留了Uniprot数据库中的标准元数据，包括蛋白质登录号、名称、来源物种以及相关的GO注释。数据集采用模块化设计，将嵌入数据(.npy)、结构化元数据(.csv)和原始元数据(.tsv)分开存储，便于不同层次的分析需求。特别值得一提的是，数据集额外提供了完整的生成脚本和下游分析案例，为研究者展示了如何利用这些嵌入进行GO注释预测等实际应用。

使用方法

该数据集为计算生物学研究提供了即用型的蛋白质表示解决方案。研究者可直接加载.npy格式的嵌入矩阵进行机器学习建模，配套的元数据文件则通过.csv.gz压缩格式提供便捷的样本标注信息。数据集特别附带的Jupyter Notebook示例演示了完整的分析流程，包括使用随机森林和LightGBM分类器对20个常见GO注释进行预测，以及通过PCA和UMAP方法实现高维嵌入的可视化分析。对于希望扩展研究的研究者，原始Python脚本允许修改参数后重新生成其他物种的蛋白质嵌入，为后续研究提供了可扩展的技术框架。

背景与挑战

背景概述

ESM2_embeddings_Human_Mouse数据集由Facebook研究团队于2025年发布，是基于ESM2-15B模型生成的人类和小鼠蛋白质嵌入表示的高维特征库。作为生物信息学领域的重要资源，该数据集源于对UniProt/Swiss-Prot数据库中经人工注释的蛋白质序列进行深度表征学习，聚焦于解决蛋白质功能预测和结构分析中的表征瓶颈问题。其采用的ESM2-15B模型作为当前最先进的蛋白质语言模型，通过自监督学习捕获了蛋白质序列中隐含的进化信息和结构特征，为下游的基因本体注释分类、蛋白质相互作用预测等任务提供了强大的特征基础。数据集涵盖36132个经基因本体(GO)标注的蛋白质样本，5120维的稠密嵌入空间显著提升了传统生物特征工程的表征能力。

当前挑战

该数据集面临的核心科学挑战在于高维嵌入空间的可解释性难题，5120维的特征表示虽蕴含丰富生物学信息，但需要开发新型降维方法以揭示其与蛋白质功能间的映射关系。技术层面，数据构建过程中遭遇了计算资源瓶颈，单个物种的嵌入生成需消耗两周的持续计算，这限制了数据规模向更多物种的扩展。领域应用方面，基因本体注释的多标签分类任务存在类别不平衡和层次结构依赖等固有难题，而现有随机森林和LightGBM分类器的性能天花板尚未明确。数据质量控制上，虽然采用Swiss-Prot的精选序列，但模型对低相似度序列的嵌入泛化能力仍需验证，且跨物种迁移学习的有效性有待探索。

常用场景

经典使用场景

在生物信息学领域，ESM2_embeddings_Human_Mouse数据集为研究人员提供了一个高效的工具，用于探索人类和小鼠蛋白质序列的深层特征。通过ESM2-15B模型生成的5120维嵌入向量，研究人员能够快速识别蛋白质的功能区域、结构域以及潜在的生物学功能。这一数据集特别适用于蛋白质功能预测、结构建模以及进化分析等经典任务，为生物医学研究提供了强有力的数据支持。

实际应用

在实际应用中，ESM2_embeddings_Human_Mouse数据集为药物发现和精准医疗提供了重要支持。制药公司可以利用这些嵌入向量加速靶点筛选和药物设计，而临床研究人员则能够通过分析人类蛋白质变异与疾病之间的关联，开发个性化治疗方案。此外，数据集中的小鼠蛋白质数据也为临床前研究提供了可靠的跨物种分析基础。

衍生相关工作

围绕该数据集，学术界已衍生出多项重要研究。例如，基于这些嵌入开发的蛋白质功能预测模型在多个基准测试中取得了领先性能。另有研究将嵌入向量与图神经网络结合，用于蛋白质相互作用网络的重构。这些工作不仅验证了数据集的质量，还拓展了其在系统生物学和合成生物学中的应用范围，为后续研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集