PATHOS-PLM-EMBEDDINGS
收藏PATHOS PLM Embeddings 数据集概述
数据集简介
PATHOS PLM Embeddings 是一个预计算的蛋白质语言模型嵌入数据集,包含了约20,000个人类SwissProt蛋白质中所有可能的单氨基酸替换的嵌入向量。这些嵌入被用于PATHOS工具来预测错义突变的致病性。
数据集结构
数据集中的每一行代表一个突变,包含以下列:
| 列名 | 类型 | 描述 |
|---|---|---|
protein_id |
字符串 | UniProt 登录号(例如 A0A024R1R8) |
position |
uint16 | 1-索引的残基位置 |
wild_type |
字符串 | 原始氨基酸(单字母) |
mutant |
字符串 | 替换的氨基酸(单字母) |
variation |
字符串 | 紧凑格式的突变(例如 M1A) |
emb |
列表<float32> | 位置特异性嵌入向量 |
mean |
列表<float32> | 平均池化的序列嵌入向量 |
对于每个长度为 L 的蛋白质,有 L × 19 行(每个位置有19种可能的替换)。
配置信息
数据集提供三种不同的蛋白质语言模型配置:
| 配置名称 | 蛋白质语言模型 | 嵌入维度 | 蛋白质数量 | 近似行数 | 许可证 |
|---|---|---|---|---|---|
esm2_t33_650M_UR50D |
ESM-2 650M | 1280 | 19,758 | ~155M | MIT |
ankh2_large |
Ankh2 Large | 1536 | 20,018 | ~157M | CC BY-NC-SA 4.0 |
esmc_600m |
ESM-C 600M | 1152 | 20,311 | ~160M | Cambrian Non-Commercial |
数据文件
数据以Parquet格式存储,文件路径模式如下:
esmc_600m/data/train-*.parquetesm2_t33_650M_UR50D/data/train-*.parquetankh2_large/data/train-*.parquet
许可证信息
每个配置根据其源模型的许可证发布:
| 配置 | 源模型 | 许可证 |
|---|---|---|
esm2_t33_650M_UR50D |
ESM-2 650M | MIT |
ankh2_large |
Ankh2 Large | CC BY-NC-SA 4.0 |
esmc_600m |
ESM-C 600M | EvolutionaryScale Cambrian Non-Commercial License |
重要说明
- 当前数据集尚未完全完成,正在最终准备阶段
- 如果组合使用来自多个配置的嵌入向量,必须遵守最严格的适用许可证条款
- 涉及
esmc_600m或ankh2_large嵌入向量的任何组合使用仅限于非商业目的
数据生成方法
嵌入向量的生成过程:
- 获取每个人类SwissProt蛋白质序列
- 创建所有可能的单氨基酸替换
- 将每个突变序列通过蛋白质语言模型运行
- 提取突变位点的位置特异性嵌入向量和整个序列的平均池化嵌入向量
所有嵌入向量均以其原始的float32精度存储。
引用信息
如果使用此数据集,请引用PATHOS论文: bibtex @Article{radjasandirane_2026, author = {Radjasandirane, Ragousandirane and Cretin, Gabriel and Diharce, Julien and de Brevern, Alexandre G. and Gelly, Jean-Christophe}, title = {PATHOS: Predicting variant pathogenicity by combining protein language models and biological features}, journal = {Artificial Intelligence in the Life Sciences}, year = {2026}, volume = {9}, pages = {100165}, publisher = {Elsevier BV}, doi = {10.1016/j.ailsci.2026.100165}, url = {http://dx.doi.org/10.1016/j.ailsci.2026.100165}, }



