omg_prot50

Hugging Face2024-12-22 更新2024-12-23 收录

下载链接：

https://huggingface.co/datasets/Synthyra/omg_prot50

下载链接

链接失效反馈

官方服务：

资源简介：

OMG_prot50数据集是一个经过50%身份聚类的蛋白质序列数据集，旨在用于训练和评估。数据集包含训练集、验证集和测试集，验证集和测试集由10,000个随机分割组成，确保与训练集非冗余。测试集还包括自OMG创建以来所有新的UniProt条目，这些条目具有转录水平证据。

创建时间：

2024-12-11

原始信息汇总

数据集概述

数据集信息

特征:
- sequence: 数据类型为 large_string。
数据集划分:
- train:
  - 字节数: 45299669517.08662
  - 样本数: 207228723
- valid:
  - 字节数: 2185974.456691827
  - 样本数: 10000
- test:
  - 字节数: 2916145.0439189114
  - 样本数: 13340
下载大小: 44647931388 字节
数据集大小: 45304771636.587234 字节

配置信息

配置名称: default
- 数据文件:
  - train: data/train-*
  - valid: data/valid-*
  - test: data/test-*

数据集描述

该数据集是 OMG_prot50 的简化版本，去除了ID以节省空间。
添加了验证集和测试集用于评估目的，包括 ESM2 speed runs。
OMG prot50 在 50% 的同一性下进行了聚类，因此默认情况下，随机拆分对训练集是非冗余的。
验证集和测试集的基础组件由 10,000 个随机拆分组成。
测试集还添加了自 OMG 创建以来所有具有转录水平证据的新 UniProt 条目，经过去重处理。

搜集汇总

数据集介绍

构建方式

OMG_prot50数据集通过聚类方法构建，以50%的序列同一性进行聚类，确保训练集中的随机分割具有非冗余性。验证集和测试集分别由10,000个随机分割组成，测试集还额外包含了OMG创建后所有新的UniProt条目，这些条目具有转录水平证据，并通过去重处理以确保数据质量。

特点

该数据集的主要特点在于其高度的非冗余性和多样性。通过50%序列同一性聚类，数据集有效避免了训练集中的冗余序列，同时验证集和测试集的随机分割设计确保了评估的准确性。此外，测试集的扩展部分包含了最新的UniProt条目，增强了数据集的前沿性和实用性。

使用方法

OMG_prot50数据集适用于蛋白质序列分析和模型评估。用户可以通过HuggingFace的datasets库加载该数据集，分别使用train、valid和test分割进行训练、验证和测试。数据集的序列特征可以直接用于蛋白质语言模型的训练和评估，特别适合于ESM2等模型的速度测试和性能评估。

背景与挑战

背景概述

OMG_prot50数据集是由主要研究人员或机构创建，专注于蛋白质序列分析的高质量数据集。该数据集创建于近期，旨在通过提供高覆盖率和多样性的蛋白质序列数据，推动蛋白质结构预测和功能分析的研究。OMG_prot50数据集的核心研究问题是如何在保持数据多样性的同时，确保训练集与验证集、测试集之间的非冗余性。这一数据集的推出，对于提升蛋白质科学领域的研究水平具有重要意义，尤其是在蛋白质序列的分类和功能预测方面。

当前挑战

OMG_prot50数据集在构建过程中面临的主要挑战包括：首先，如何在50%的序列相似性阈值下进行有效聚类，以确保数据集的多样性和非冗余性。其次，随机分割10,000个样本作为验证集和测试集，这一过程需要精确控制以避免数据泄露。此外，数据集的更新也是一个挑战，特别是如何有效地整合自OMG创建以来新增的UniProt条目，并确保这些新数据具有转录水平证据。这些挑战共同构成了OMG_prot50数据集在蛋白质序列分析领域中的重要研究课题。

常用场景

经典使用场景

OMG_prot50数据集在蛋白质序列分析领域中扮演着重要角色，其经典使用场景主要集中在蛋白质结构预测和功能注释。通过提供高多样性的蛋白质序列，该数据集支持研究人员训练和验证深度学习模型，以预测蛋白质的三维结构及其生物学功能。此外，OMG_prot50还广泛应用于蛋白质进化研究，帮助揭示不同蛋白质序列之间的进化关系。

实际应用

在实际应用中，OMG_prot50数据集被广泛用于生物技术和制药行业。例如，在药物设计过程中，研究人员可以利用该数据集预测目标蛋白质的结构和功能，从而加速药物筛选和开发。此外，OMG_prot50还支持蛋白质工程领域的应用，帮助设计新型蛋白质以满足特定的工业或医疗需求。在农业领域，该数据集也被用于改良作物的抗病性和产量。

衍生相关工作

OMG_prot50数据集的发布催生了一系列相关研究工作。例如，基于该数据集的蛋白质结构预测模型在多个国际竞赛中取得了优异成绩，推动了蛋白质组学领域的技术进步。此外，研究人员还利用OMG_prot50开发了多种蛋白质功能注释工具，为生物信息学研究提供了新的方法和工具。在进化生物学领域，OMG_prot50也激发了大量关于蛋白质进化机制的研究，揭示了蛋白质序列与功能之间的复杂关系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集