PATHOS-PLM-EMBEDDINGS

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/DSIMB/PATHOS-PLM-EMBEDDINGS

下载链接

链接失效反馈

官方服务：

资源简介：

PATHOS PLM Embeddings 是一个预计算的蛋白质语言模型嵌入数据集，包含约20,000个人类SwissProt蛋白质中所有单氨基酸替换（SAS）的嵌入表示。这些嵌入被PATHOS项目用于预测错义突变的致病性。数据集包含三种不同的蛋白质语言模型配置：ESM-2 650M、Ankh2 Large和ESM-C 600M，分别生成不同维度的嵌入向量（1280维、1536维和1152维）。每个蛋白质的每个位置包含19种可能的氨基酸替换，总数据量在1.55亿到1.6亿行之间。数据集中的每条记录包含蛋白质ID、位置、野生型和突变型氨基酸、变异表示（如M1A）、位置特异性嵌入向量（emb）和平均池化序列嵌入向量（mean）。该数据集适用于蛋白质突变分析、致病性预测等生物信息学任务，但需要注意不同配置有不同的许可协议，特别是ESM-C 600M和Ankh2 Large配置仅限非商业用途。

创建时间：

2026-03-06

原始信息汇总

PATHOS PLM Embeddings 数据集概述

数据集简介

PATHOS PLM Embeddings 是一个预计算的蛋白质语言模型嵌入数据集，包含了约20,000个人类SwissProt蛋白质中所有可能的单氨基酸替换的嵌入向量。这些嵌入被用于PATHOS工具来预测错义突变的致病性。

数据集结构

数据集中的每一行代表一个突变，包含以下列：

列名	类型	描述
`protein_id`	字符串	UniProt 登录号（例如 `A0A024R1R8`）
`position`	uint16	1-索引的残基位置
`wild_type`	字符串	原始氨基酸（单字母）
`mutant`	字符串	替换的氨基酸（单字母）
`variation`	字符串	紧凑格式的突变（例如 `M1A`）
`emb`	列表<float32>	位置特异性嵌入向量
`mean`	列表<float32>	平均池化的序列嵌入向量

对于每个长度为 L 的蛋白质，有 L × 19 行（每个位置有19种可能的替换）。

配置信息

数据集提供三种不同的蛋白质语言模型配置：

配置名称	蛋白质语言模型	嵌入维度	蛋白质数量	近似行数	许可证
`esm2_t33_650M_UR50D`	ESM-2 650M	1280	19,758	~155M	MIT
`ankh2_large`	Ankh2 Large	1536	20,018	~157M	CC BY-NC-SA 4.0
`esmc_600m`	ESM-C 600M	1152	20,311	~160M	Cambrian Non-Commercial

数据文件

数据以Parquet格式存储，文件路径模式如下：

esmc_600m/data/train-*.parquet
esm2_t33_650M_UR50D/data/train-*.parquet
ankh2_large/data/train-*.parquet

许可证信息

每个配置根据其源模型的许可证发布：

配置	源模型	许可证
`esm2_t33_650M_UR50D`	ESM-2 650M	MIT
`ankh2_large`	Ankh2 Large	CC BY-NC-SA 4.0
`esmc_600m`	ESM-C 600M	EvolutionaryScale Cambrian Non-Commercial License

重要说明

当前数据集尚未完全完成，正在最终准备阶段
如果组合使用来自多个配置的嵌入向量，必须遵守最严格的适用许可证条款
涉及 esmc_600m 或 ankh2_large 嵌入向量的任何组合使用仅限于非商业目的

数据生成方法

嵌入向量的生成过程：

获取每个人类SwissProt蛋白质序列
创建所有可能的单氨基酸替换
将每个突变序列通过蛋白质语言模型运行
提取突变位点的位置特异性嵌入向量和整个序列的平均池化嵌入向量

所有嵌入向量均以其原始的float32精度存储。

引用信息

如果使用此数据集，请引用PATHOS论文： bibtex @Article{radjasandirane_2026, author = {Radjasandirane, Ragousandirane and Cretin, Gabriel and Diharce, Julien and de Brevern, Alexandre G. and Gelly, Jean-Christophe}, title = {PATHOS: Predicting variant pathogenicity by combining protein language models and biological features}, journal = {Artificial Intelligence in the Life Sciences}, year = {2026}, volume = {9}, pages = {100165}, publisher = {Elsevier BV}, doi = {10.1016/j.ailsci.2026.100165}, url = {http://dx.doi.org/10.1016/j.ailsci.2026.100165}, }

搜集汇总

数据集介绍

构建方式

在蛋白质功能预测领域，对错义突变致病性的精准评估依赖于高质量的蛋白质表示。PATHOS-PLM-EMBEDDINGS数据集的构建始于约两万条人类SwissProt蛋白质序列，系统性地为每个序列生成所有可能的单氨基酸替换变体。随后，这些变体序列经由ESM-2、Ankh2和ESM-C等前沿蛋白质语言模型处理，提取出每个突变位点的位置特异性嵌入向量以及整个序列的平均池化嵌入向量。整个过程确保了嵌入表示的原生精度，最终以浮点32位格式存储，形成了涵盖数亿个突变-嵌入对的大规模预计算资源。

特点

该数据集的核心特点在于其规模与多样性，它集成了来自多个高性能蛋白质语言模型的预计算嵌入，为同一组蛋白质突变提供了多维度的语义表示。每个数据条目不仅包含突变的基本标识信息，如蛋白质编号、位点与氨基酸变化，更关键的是提供了高维的向量化特征。这些特征直接捕获了突变对蛋白质结构和功能的潜在影响，为下游的机器学习模型提供了即用且信息丰富的输入。数据集采用分块存储的Parquet格式，支持流式读取，便于在有限内存环境下高效处理海量数据。

使用方法

利用该数据集，研究人员可通过Hugging Face的`datasets`库便捷加载特定模型配置的嵌入数据。为提升访问效率，建议启用流式模式以避免完整下载。数据集支持灵活的查询操作，例如通过蛋白质ID或特定突变形式进行筛选，也可直接使用DuckDB对底层Parquet文件执行SQL查询以应对大规模分析。嵌入向量可轻松转换为NumPy数组或PyTorch张量，无缝集成至现有的机器学习流程中，用于构建数据加载器、计算突变间的语义相似度，或融合不同模型的嵌入以增强表示能力。

背景与挑战

背景概述

在计算生物学与蛋白质工程领域，准确预测错义突变的致病性是一项核心挑战，直接影响遗传疾病诊断与药物靶点发现。PATHOS-PLM-EMBEDDINGS数据集由DSIMB团队构建，旨在为约两万个人类SwissProt蛋白质的所有单氨基酸置换提供预计算的蛋白质语言模型嵌入。该数据集依托ESM-2、Ankh2及ESM-C等前沿模型，通过提取位置特异性与平均池化序列嵌入，为PATHOS工具预测突变致病性提供结构化特征表示。其创建标志着蛋白质语言模型在功能基因组学中的深化应用，为大规模突变效应分析奠定了数据基础。

当前挑战

该数据集致力于解决蛋白质错义突变致病性预测的领域挑战，其核心在于如何从海量突变中精准捕捉细微的序列-功能关联。构建过程中面临多重技术难题：首先，需为每个蛋白质生成所有可能的单氨基酸置换，计算规模高达数亿行，对存储与处理效率提出极高要求；其次，整合不同架构与许可协议的蛋白质语言模型嵌入时，需确保数据一致性并协调复杂的许可证约束。此外，嵌入向量的高维度特性与生物学解释性之间的平衡，仍是后续分析方法需要克服的关键障碍。

常用场景

经典使用场景

在计算生物学与蛋白质工程领域，蛋白质语言模型预训练嵌入已成为解析蛋白质序列功能与结构关联的核心工具。PATHOS-PLM-EMBEDDINGS数据集通过整合ESM-2、Ankh2及ESM-C等多种前沿模型，为约两万个人类SwissProt蛋白质的所有单氨基酸替换变异提供了标准化的嵌入向量。其经典应用场景在于构建机器学习管道，直接利用这些预计算嵌入作为特征输入，训练分类器以预测错义突变的致病性，极大简化了从原始序列到功能预测的复杂流程。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于开发新型的致病性预测框架与多模态整合模型。例如，其配套工具PATHOS便是一个代表性系统，它巧妙结合了蛋白质语言模型嵌入与传统的生物物理特征。后续研究进一步探索了不同嵌入模型的融合策略，以及如何将突变嵌入与蛋白质结构信息、进化保守性数据相结合，以提升预测的准确性与可解释性。这些工作共同推动了蛋白质变异功能注释领域向更高效、更可靠的方向演进。

数据集最近研究