InstaDeepAI/IDP-Euka-90
收藏Hugging Face2026-03-31 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/IDP-Euka-90
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_name: IDP-Euka-90
pretty_name: IDP-Euka-90
---
# IDP-Euka-90
**IDP-Euka-90** is a collection of eukaryotic protein sequences curated for representation learning and downstream analysis of **intrinsically disordered proteins/regions (IDPs/IDRs)**.
These sequences were obtained by running [Metapredict V3](https://pubmed.ncbi.nlm.nih.gov/34480923/) on all the available eukaryota proteomes from [UniProt](https://www.uniprot.org), which extracted all the IDP regions in each proteome. The sequences we subsequently clustered at 90% with [mmseqs2](https://github.com/soedinglab/MMseqs2) to remove all near duplicates.
The HF dataset is distributed as a train/val split and the backup csv has a **`split` column** prepared.
---
## Contents
- **Columns**
- `sequence` — protein amino-acid sequence (single-letter codes)
- **Format**
- Hosted on the Hugging Face Hub as an Arrow/CSV-backed dataset.
---
## Quick start
```python
from datasets import load_dataset
repo_id = "InstaDeepAI/IDP-Euka-90"
ds = load_dataset(repo_id)
print(ds)
print(ds.features)
提供机构:
InstaDeepAI
搜集汇总
数据集介绍

构建方式
在真核生物蛋白质组学领域,IDP-Euka-90数据集的构建体现了对内在无序蛋白质区域(IDPs/IDRs)的系统性探索。该数据集源自UniProt数据库中所有可用的真核生物蛋白质组,通过Metapredict V3算法精准提取每个蛋白质组中的内在无序区域,确保了数据的生物学代表性。随后,利用mmseqs2工具在90%相似度阈值下进行聚类,有效剔除了近重复序列,从而提升了数据集的多样性与独特性。整个过程融合了计算生物学的前沿方法,为后续的表示学习与分析奠定了坚实基础。
特点
IDP-Euka-90数据集的核心特点在于其专注于真核生物内在无序蛋白质区域的专一性,这为研究蛋白质功能与结构动态性提供了宝贵资源。数据集以氨基酸序列的单字母代码形式呈现,结构简洁明了,便于直接应用于机器学习模型。通过严格的聚类处理,数据集避免了冗余信息,增强了样本的区分度与代表性。此外,数据集已预先划分为训练集与验证集,并包含明确的拆分列,支持即插即用的实验设计,显著提升了研究效率与可重复性。
使用方法
对于研究人员而言,IDP-Euka-90数据集的使用极为便捷,可直接通过Hugging Face Hub平台加载。利用datasets库中的load_dataset函数,指定相应的仓库标识符即可快速获取数据,并以Arrow或CSV格式进行访问。数据集的结构清晰,特征列明确,支持用户立即开展表示学习、分类预测或功能分析等下游任务。这种标准化的接口设计降低了技术门槛,促进了跨学科合作与创新应用的快速发展。
背景与挑战
背景概述
真核生物蛋白质组学研究中,内在无序蛋白质及其区域(IDPs/IDRs)因其缺乏固定三维结构却参与关键细胞过程而备受关注。IDP-Euka-90数据集由InstaDeepAI团队构建,发布于2024年,旨在为IDPs/IDRs的表征学习与下游分析提供高质量序列资源。该数据集通过Metapredict V3算法对UniProt中所有真核生物蛋白质组进行扫描,提取无序区域,并利用mmseqs2在90%相似度下聚类以消除近重复序列,从而聚焦于真核生物IDPs的多样性表征,推动蛋白质功能预测与结构生物学交叉领域的发展。
当前挑战
IDP-Euka-90数据集致力于解决内在无序蛋白质功能与结构预测的核心挑战,即如何从序列信息中有效捕捉无序区域的动态特性与生物学功能。构建过程中面临多重技术难题:首先,从大规模真核生物蛋白质组中准确识别IDPs/IDRs依赖于算法预测的可靠性,可能引入偏差;其次,在90%序列相似度下聚类虽能减少冗余,但可能丢失进化中保守的功能性细微变异。这些挑战要求后续研究在表征学习模型中整合多源生物信息,以提升对无序区域复杂行为的解析能力。
常用场景
经典使用场景
在生物信息学领域,IDP-Euka-90数据集为研究真核生物中内在无序蛋白质(IDPs)及其区域(IDRs)提供了关键资源。该数据集通过Metapredict V3算法从UniProt的真核生物蛋白质组中提取无序区域,并经过90%相似度的聚类去重,确保了序列的多样性与代表性。研究者常利用此数据集进行蛋白质无序性的表示学习,训练深度学习模型以预测序列中的无序区域,进而探索蛋白质结构与功能之间的复杂关系。
解决学术问题
IDP-Euka-90数据集主要解决了蛋白质科学中关于无序区域识别与表征的学术难题。传统方法往往依赖于实验测定,成本高昂且效率低下,而该数据集通过大规模计算预测,提供了高质量的无序蛋白质序列集合。这有助于开发更准确的预测算法,深化对蛋白质折叠、相互作用及细胞信号传导机制的理解,推动了计算结构生物学的前沿进展。
衍生相关工作
基于IDP-Euka-90数据集,学术界衍生了一系列经典研究工作。例如,研究人员开发了基于Transformer的蛋白质语言模型,专门用于无序区域的嵌入表示;还有工作结合该数据集与多模态学习,探索无序区域在蛋白质-蛋白质网络中的动态角色。这些成果不仅丰富了蛋白质信息学工具库,也为后续的跨物种比较和进化分析奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



