foldseek_dataset

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/lhallee/foldseek_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自ProstT5项目。数据集包含了标签和序列两种特征，并且分为训练集、测试集和验证集。数据集已经使用项目提供的分词器解码，以获得原始序列。

创建时间：

2025-05-20

原始信息汇总

数据集概述

基本信息

数据集名称: foldseek_dataset
来源: ProstT5项目
原始项目资源:
- 论文
- 代码

数据集结构

特征:
- labels: 字符串类型
- seqs: 字符串类型
数据拆分:
- train:
  - 样本数量: 17,070,828
  - 数据大小: 8,259,340,114字节
- test:
  - 样本数量: 474
  - 数据大小: 138,308字节
- valid:
  - 样本数量: 474
  - 数据大小: 142,890字节

数据下载与存储

下载大小: 7,022,292,725字节
数据集总大小: 8,259,621,312字节

修改说明

使用原始tokenizer解码以获取原始序列数据。

搜集汇总

数据集介绍

构建方式

foldseek_dataset源自ProstT5项目，其构建过程体现了蛋白质序列分析领域的前沿技术路径。原始数据通过特定tokenizer进行解码处理，转化为可直接分析的氨基酸序列，完整保留了蛋白质的初级结构信息。数据集经过标准化分割，形成训练集、测试集和验证集三部分，其中训练集包含1700余万条样本，验证集与测试集各含474条样本，确保了模型开发与评估的科学性。

特点

该数据集以蛋白质序列为核心特征，包含labels和seqs两个关键字段，分别记录序列标识和氨基酸排列。数据规模达到8.25GB，海量的样本覆盖为深度学习模型训练提供了坚实基础。特别值得注意的是，所有序列均经过专业解码处理，消除了中间表征带来的信息损失，使得研究者能够直接获取最原始的蛋白质结构信息。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载预分割的训练、测试及验证集。数据文件按标准格式组织，train-*、test-*和valid-*分别对应不同用途的数据子集。建议先利用大规模训练集进行模型预训练，再通过验证集调整超参数，最终在测试集上评估性能。由于数据已预处理为可直接输入的序列格式，研究者可跳过繁琐的特征工程阶段，专注于模型架构设计与算法优化。

背景与挑战

背景概述

foldseek_dataset源自ProstT5项目，该项目由Rostlab团队主导开发，致力于探索蛋白质序列的深度表示学习。作为生物信息学领域的重要数据集，它于近年发布，旨在解决蛋白质功能预测与结构分析中的关键问题。该数据集通过大规模蛋白质序列的智能编码，为研究人员提供了丰富的训练样本，显著推动了蛋白质语言模型的发展，并在药物发现、酶工程等应用中展现出重要价值。

当前挑战

foldseek_dataset面临的挑战主要集中在两方面：在领域问题层面，蛋白质序列的高维度特性与功能多样性使得模型难以准确捕捉其复杂模式；同时，跨物种蛋白质的功能保守性增加了分类任务的难度。在构建过程中，原始数据的稀疏性与噪声干扰对序列解码提出了严峻考验，而将tokenizer输出的离散符号还原为可解释的氨基酸序列，亦需解决信息损失与语义对齐的技术瓶颈。

常用场景

经典使用场景

在生物信息学领域，foldseek_dataset数据集为蛋白质序列分析提供了重要支持。该数据集通过提供大量经过标注的蛋白质序列，成为研究蛋白质结构预测和功能注释的基准工具。研究人员利用其高质量的训练样本，能够有效验证各类蛋白质折叠算法的性能，特别是在跨膜蛋白和可溶性蛋白的分类任务中展现出显著优势。

衍生相关工作

基于该数据集衍生的经典工作包括ProstT5等突破性蛋白质语言模型。这些模型通过在大规模蛋白质序列上的预训练，实现了跨膜区段预测精度的显著提升。后续研究进一步扩展了其在蛋白质-蛋白质相互作用预测、抗原表位识别等方向的应用，形成了完整的计算结构生物学研究体系。

数据集最近研究