evo

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/wjiaqi/evo

下载链接

链接失效反馈

官方服务：

资源简介：

蛋白质复合体交换数据集是一个用于蛋白质复合体模型自监督训练的跨物种蛋白质-蛋白质相互作用比较数据集。每个数据行包含来自不同物种的两个天然蛋白质复合体，这些复合体通过同源关系共享相同的保守相互作用。数据集允许构建四种复合体形式：两种天然复合体和两种交换复合体。数据集包含142,598行数据，覆盖9种模式生物，涉及40,973个独特的相互作用组和26,775个独特蛋白质。每行数据包含四个蛋白质的完整氨基酸序列、两个定量距离度量（序列同一性和分类学距离）以及相关的元数据如UniProt accession和基因名称。该数据集适用于蛋白质复合体偏好模型的自监督训练，旨在帮助模型区分天然复合体与跨物种交换复合体。数据来源于STRING v12.0物理相互作用和UniProt序列数据，通过严格的同源映射和序列比对方法构建。

创建时间：

2026-03-27

原始信息汇总

蛋白质复合物交换数据集

数据集概述

该数据集包含来自不同物种、共享相同保守相互作用的蛋白质-蛋白质相互作用对，用于蛋白质复合物模型的自监督训练。每条数据包含来自两个物种的两个天然蛋白质复合物，模型可从中构建两种天然复合物和两种交换复合物。

基本信息

许可证: CC-BY-4.0
任务类别: 其他
标签: 蛋白质、复合物、进化、交换、自监督、蛋白质-蛋白质相互作用、直系同源
数据规模: 100K < n < 1M
默认数据文件: data/swap_complexes.parquet

数据集统计

总行数: 142,598
唯一相互作用组: 40,973
唯一蛋白质: 26,775
覆盖物种: 9种模式生物

距离度量

每条数据包含两个定量度量，用于衡量交换的差异程度：

seq_identity_A: 物种1与物种2中蛋白质A之间的成对序列同一性（0.0–1.0）
seq_identity_B: 物种1与物种2中蛋白质B之间的成对序列同一性（0.0–1.0）
taxonomic_distance: 两个物种之间的NCBI分类树距离（整数，值越高表示距离越远）

物种覆盖与行数分布

物种1	物种2	行数
Homo sapiens	Mus musculus	34,514
Saccharomyces cerevisiae	Homo sapiens	12,309
Mus musculus	Rattus norvegicus	12,061
Homo sapiens	Rattus norvegicus	11,202
Saccharomyces cerevisiae	Mus musculus	8,692
Drosophila melanogaster	Homo sapiens	5,553
Arabidopsis thaliana	Homo sapiens	5,492
Drosophila melanogaster	Mus musculus	5,117
Arabidopsis thaliana	Mus musculus	4,911
Arabidopsis thaliana	Saccharomyces cerevisiae	4,402
Saccharomyces cerevisiae	Rattus norvegicus	4,101
Caenorhabditis elegans	Homo sapiens	4,013
Caenorhabditis elegans	Mus musculus	3,733
Saccharomyces cerevisiae	Drosophila melanogaster	3,481
Saccharomyces cerevisiae	Caenorhabditis elegans	2,985
Drosophila melanogaster	Rattus norvegicus	2,691
Arabidopsis thaliana	Rattus norvegicus	2,570
Arabidopsis thaliana	Drosophila melanogaster	2,389
Caenorhabditis elegans	Drosophila melanogaster	2,251
Caenorhabditis elegans	Rattus norvegicus	2,154
Arabidopsis thaliana	Caenorhabditis elegans	2,023
Danio rerio	Homo sapiens	1,579
Danio rerio	Mus musculus	1,472
Drosophila melanogaster	Danio rerio	718
Saccharomyces cerevisiae	Danio rerio	611
Danio rerio	Rattus norvegicus	599
Caenorhabditis elegans	Danio rerio	542
Arabidopsis thaliana	Danio rerio	433

列模式

列	类型	描述
`interaction_group_id`	str	同一保守相互作用的分组标识
`species_1`	str	复合物1的物种
`taxid_1`	int	物种1的NCBI分类ID
`protein_A_sp1_uniprot`	str	物种1中蛋白质A的UniProt登录号
`protein_A_sp1_gene`	str	物种1中蛋白质A的基因名称
`protein_A_sp1_seq`	str	物种1中蛋白质A的完整氨基酸序列
`protein_A_sp1_len`	int	序列长度
`protein_B_sp1_uniprot`	str	物种1中蛋白质B的UniProt登录号
`protein_B_sp1_gene`	str	物种1中蛋白质B的基因名称
`protein_B_sp1_seq`	str	物种1中蛋白质B的完整氨基酸序列
`protein_B_sp1_len`	int	序列长度
`string_score_sp1`	int	物种1中(A, B)的STRING置信度分数
`species_2`	str	复合物2的物种
`taxid_2`	int	物种2的NCBI分类ID
`protein_A_sp2_uniprot`	str	物种2中蛋白质A的UniProt登录号
`protein_A_sp2_gene`	str	基因名称
`protein_A_sp2_seq`	str	物种2中蛋白质A的完整氨基酸序列（模型输入）
`protein_A_sp2_len`	int	序列长度
`protein_B_sp2_uniprot`	str	物种2中蛋白质B的UniProt登录号
`protein_B_sp2_gene`	str	基因名称
`protein_B_sp2_seq`	str	物种2中蛋白质B的完整氨基酸序列（模型输入）
`protein_B_sp2_len`	int	序列长度
`string_score_sp2`	int	物种2中(A, B)的STRING置信度分数
`seq_identity_A`	float	A_sp1与A_sp2之间的序列同一性（0.0–1.0）
`seq_identity_B`	float	B_sp1与B_sp2之间的序列同一性（0.0–1.0）
`taxonomic_distance`	float	物种1与物种2之间的NCBI分类树距离
`role_key_A`	str	蛋白质A家族的直系同源组ID
`role_key_B`	str	蛋白质B家族的直系同源组ID

构建方法

蛋白质-蛋白质相互作用: 来自STRING v12.0的物理相互作用（分数 ≥ 700），涵盖9种模式生物。
直系同源映射: 使用STRING最佳命中同源性识别跨物种的相同蛋白质。
相互作用分组: 两个伙伴在≥2个物种中均有直系同源物的相互作用。
序列: 通过UniProt REST API批量获取。
分类距离: 基于NCBI分类树的边缘距离计算。
序列同一性: 通过成对序列比对计算。

预期用途

用于蛋白质复合物偏好模型的自监督训练。模型学习在不同进化距离下区分天然复合物与跨物种交换复合物。

引用

若使用此数据集，请引用：

STRING数据库：Szklarczyk et al., "The STRING database in 2023", Nucleic Acids Research (2023)
UniProt：UniProt Consortium, "UniProt: the Universal Protein Knowledgebase in 2025", Nucleic Acids Research (2025)

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用研究领域，evo数据集通过系统化的跨物种比较框架构建而成。其构建过程始于从STRING v12.0数据库中筛选出置信度不低于700的物理相互作用数据，涵盖九个模式生物。随后，利用同源映射技术识别不同物种间保守的蛋白质对，形成基于直系同源的相互作用群组。每个群组包含来自两个物种的天然蛋白质复合物序列，这些序列通过UniProt知识库批量获取，并辅以序列比对计算得到的序列同一性指标，以及基于NCBI分类学树的物种间进化距离量化。整个构建流程确保了数据在进化尺度上的可比性与生物学一致性。

特点

evo数据集的核心特征体现在其精心设计的跨物种对比结构上。每一数据行均封装了两个不同物种的天然蛋白质复合物，通过直系同源关系关联，使得研究者能够直接考察同一相互作用在进化过程中的保守性。数据集不仅提供了四种可能的复合物构型——包括两个天然复合物及两个交叉物种的交换复合物，还整合了蛋白质A和B的序列同一性分数以及物种间的分类学距离，为量化进化差异提供了多维度量。覆盖范围包括从人类、小鼠到酵母、拟南芥等九个模式生物，形成了超过十四万行的丰富对比实例，为探索蛋白质相互作用的进化约束奠定了数据基础。

使用方法

该数据集主要服务于蛋白质复合物偏好模型的自我监督训练。在使用时，模型以每一行中的四条蛋白质序列作为输入，学习区分天然复合物与跨物种交换后形成的非天然复合物。训练过程鼓励模型捕捉在不同进化距离下蛋白质相互作用特异性的保守模式，即模型应赋予天然配对更高的偏好分数，而对交换配对给予较低评分。研究者可利用内嵌的序列同一性与分类学距离指标，进一步探究模型在不同进化分化程度下的泛化能力与鲁棒性，从而推动对蛋白质相互作用进化机制的计算建模与理解。

背景与挑战

背景概述

蛋白质复合物作为细胞功能执行的核心单元，其相互作用模式的演化与保守性一直是结构生物学与计算生物学交叉领域的前沿课题。evo数据集由研究团队于2025年前后构建，依托STRING数据库v12.0与UniProt知识库，旨在通过跨物种蛋白质相互作用对比，为蛋白质复合物模型的自我监督训练提供系统化资源。该数据集聚焦于九种模式生物，涵盖超过14万组保守相互作用对，通过同源映射构建天然与交换复合物变体，核心研究问题在于揭示蛋白质相互作用在演化过程中的结构功能约束，为深度学习模型理解蛋白质互作特异性与演化可塑性奠定数据基础。

当前挑战

evo数据集致力于解决蛋白质-蛋白质相互作用特异性预测的挑战，尤其在跨物种背景下，模型需区分天然复合物与演化距离各异的交换复合物，这要求算法能够融合序列相似性、系统发育距离等多维特征，并克服蛋白质互作界面细微差异所导致的判别难题。在构建过程中，挑战主要源于大规模高质量相互作用数据的整合，包括从STRING数据库筛选高置信度物理相互作用、通过同源映射精确匹配跨物种蛋白质对，以及从UniProt批量获取完整序列数据，同时需确保物种覆盖广度与演化距离量化的准确性，以构建具有生物学合理性的对比学习样本。

常用场景

经典使用场景

在蛋白质结构与相互作用研究领域，evo数据集为自监督学习提供了独特的跨物种比较框架。该数据集通过整合九个模式生物的蛋白质复合物数据，构建了包含原生与交换复合物的配对样本，使模型能够学习区分不同物种间保守的蛋白质相互作用模式。其经典应用场景在于训练深度学习模型，以识别蛋白质复合物的特异性结合特征，从而预测跨物种的相互作用稳定性，为进化生物学和结构生物信息学提供了关键的计算工具。

解决学术问题

evo数据集有效解决了蛋白质相互作用预测中数据标注稀缺的挑战，通过引入跨物种正交比对，构建了大规模的自监督训练样本。该数据集使研究人员能够探究蛋白质序列保守性与相互作用特异性之间的关联，量化进化距离对复合物稳定性的影响。其意义在于推动了无监督蛋白质表示学习的发展，为理解蛋白质相互作用的进化机制提供了数据基础，促进了计算生物学模型在精度与泛化能力上的提升。

衍生相关工作

evo数据集衍生了一系列经典研究工作，包括基于进化距离的蛋白质复合物偏好性模型，如利用序列同一性与分类距离预测相互作用稳定性的神经网络架构。相关研究扩展至蛋白质语言模型的自监督预训练，通过跨物种对比学习提升表示质量。这些工作进一步推动了蛋白质相互作用数据库的构建与标准化，为多尺度生物分子模拟与进化分析提供了方法论基础。

以上内容由遇见数据集搜集并总结生成