omg_prot50_packed

Hugging Face2025-01-04 更新2025-01-05 收录

下载链接：

https://huggingface.co/datasets/Synthyra/omg_prot50_packed

下载链接

链接失效反馈

官方服务：

资源简介：

OMGprot50数据集的预分词版本，使用ESM2 tokens并以uint8格式存储。数据集由Tatta Bio整理，每个分片（.bin）包含100,000,000个tokens。数据集还包括用于评估的验证集和测试集，这些集合是通过随机分割10,000个样本创建的，确保了与训练集的非冗余性。测试集还包括自OMG创建以来所有新的Uniprot条目，这些条目在去重后具有转录水平的证据。

The pre-tokenized version of the OMGprot50 dataset employs ESM2 tokens and is stored in uint8 format. Curated by Tatta Bio, each .bin shard of this dataset contains 100,000,000 tokens. The dataset also includes validation and test sets for model evaluation, which are generated through random splitting of 10,000 samples to ensure non-redundancy with the training dataset. The test set further incorporates all new UniProt entries released since the inception of OMGprot50, and these entries have transcriptomic evidence following deduplication.

创建时间：

2024-12-27

搜集汇总

数据集介绍

构建方式

omg_prot50_packed数据集是基于OMGprot50数据集构建的预分词版本，采用ESM2标记系统进行编码。该数据集的构建过程包括对原始蛋白质序列进行聚类处理，确保在50%的序列相似性下进行去冗余操作。每个数据分片包含1亿个标记，确保了数据的高效存储与处理。此外，数据集还引入了验证集和测试集，其中测试集包含了自OMGprot50创建以来新增的Uniprot条目，这些条目经过去重处理并具备转录水平的证据支持。

特点

omg_prot50_packed数据集的主要特点在于其高效的预分词处理和去冗余设计。通过ESM2标记系统，数据集能够以uint8格式存储，显著降低了存储和计算资源的消耗。数据集的验证集和测试集均采用随机分割方式，确保与训练集的非冗余性。测试集还特别引入了最新的Uniprot条目，增强了数据集的时效性和多样性。这些特点使得该数据集特别适用于蛋白质序列建模和生物信息学领域的研究。

使用方法

使用omg_prot50_packed数据集时，用户可以通过提供的脚本进行数据下载、分割创建和标记化处理。下载脚本可从GitHub仓库获取，支持用户快速获取数据集。分割创建脚本允许用户根据需要生成自定义的训练、验证和测试集。标记化脚本则进一步处理数据，使其适用于深度学习模型的输入格式。通过这些工具，用户可以高效地利用该数据集进行蛋白质序列分析、模型训练和性能评估。

背景与挑战

背景概述

OMGprot50_packed数据集是基于OMGprot50的预分词版本，专门为ESM2模型设计，旨在优化蛋白质序列的分析与处理。该数据集由Tatta Bio团队精心构建，其核心研究问题聚焦于通过高密度聚类技术（50%相似度）减少序列冗余，从而提升模型训练的效率与准确性。自创建以来，OMGprot50_packed在生物信息学领域引起了广泛关注，特别是在蛋白质结构预测和功能注释方面，为研究者提供了高质量的训练与评估资源。

当前挑战

OMGprot50_packed数据集在构建与应用过程中面临多重挑战。首先，蛋白质序列的高维性与复杂性使得数据预处理和分词过程尤为困难，尤其是在保持序列生物学意义的同时进行高效压缩。其次，数据集的非冗余性要求严格的聚类与分割策略，以确保训练集与验证集之间的独立性。此外，随着UniProt数据库的不断更新，如何动态整合新数据并保持数据集的时效性，也是一个亟待解决的技术难题。这些挑战不仅考验数据集的构建技术，也对后续模型的训练与评估提出了更高要求。

常用场景

经典使用场景

在蛋白质序列分析领域，omg_prot50_packed数据集被广泛用于训练和评估基于ESM2（Evolutionary Scale Modeling 2）的深度学习模型。该数据集提供了预处理的蛋白质序列数据，使得研究人员能够快速进行模型训练和性能测试，特别是在处理大规模蛋白质序列时，显著提高了计算效率。

解决学术问题

omg_prot50_packed数据集解决了蛋白质序列分析中的冗余问题。通过50%的序列同一性聚类，确保了训练集、验证集和测试集之间的非冗余性，从而避免了模型在训练过程中因数据重复而产生的过拟合问题。此外，该数据集还包含了最新的Uniprot条目，为模型提供了最新的生物学信息，增强了模型的泛化能力。

衍生相关工作

omg_prot50_packed数据集衍生了一系列相关研究，特别是在ESM2模型的优化和应用方面。例如，基于该数据集的ESM2速度运行项目（SpeedRunningESM2）展示了如何通过高效的数据处理和模型训练策略，显著提升蛋白质序列分析的计算效率。这些工作为后续的蛋白质序列分析研究提供了重要的参考和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集