neuralbioinfo/ESKAPE-masking

Name: neuralbioinfo/ESKAPE-masking
Creator: neuralbioinfo
Published: 2025-01-09 13:40:43
License: 暂无描述

Hugging Face2025-01-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/neuralbioinfo/ESKAPE-masking

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估不同模型在基因组序列掩码任务中的表现，衡量不同模型恢复原始字符的能力。数据集来源于RefSeq数据库和其他来源，特别关注ESKAPE病原体。基因组特征被随机采样，随后进行连续分段。数据集包含不同长度的片段：[128, 256, 512, 1024]。片段被随机选择，其中一个字符被替换为*（masked_segment列）以创建掩码任务。reference_segment包含未替换的原始核苷酸。每个集合进行了10,000次掩码处理，最多包含2,000个基因组特征。仅考虑了以下基因组特征：CDS、intergenic、pseudogene和ncRNA。

提供机构：

neuralbioinfo

原始信息汇总

数据集描述

该数据集用于评估不同模型在掩码任务中的表现，测量模型恢复原始字符的能力。

数据集概览

数据集从RefSeq数据库和其他来源编译而来，重点关注ESKAPE病原体。基因组特征是随机采样，然后进行连续分割。该数据集包含不同长度的片段：[128, 256, 512, 1024]。这些片段是随机选择的，其中一个字符被替换为*（掩码片段列）以创建掩码任务。reference_segment包含原始的、未替换的核苷酸。我们对每个集合进行了10,000次掩码，最多包含2,000个基因组特征。只考虑了基因组特征：CDS, intergenic, pseudogene, 和 ncRNA。

数据字段

reference_segment_id: 片段标识符与其在数据库中的相应参考ID的映射。
masked_segment: 用于预测或测试目的的某些位置被掩码（标记为*）的片段的DNA序列。
position_to_mask: 序列中被掩码的特定位置，由索引号表示。
masked_segment_id: 分配给掩码片段的唯一标识符。（仅在长度上唯一）
contig_id: 片段所属的contig的标识符。
segment_id: 每个基因组片段的唯一标识符（与参考片段ID相同）。
strand: 片段的DNA链，表示为+（正）或-（负）。
seq_start: 片段在contig中的起始位置。
seq_end: 片段在contig中的结束位置。
segment_start: 基因组片段在序列中的起始位置。
segment_end: 基因组片段在序列中的结束位置。
label: 基因组片段的类别标签（例如，CDS, intergenic）。
segment_length: 基因组片段的长度。
original_segment: 没有任何掩码的原始基因组序列。

使用

该数据集旨在用于学术和研究目的。鼓励用户在生物信息学模型的开发和评估中使用此数据集，特别是那些与基因组研究相关的模型。

5,000+

优质数据集

54 个

任务类型

进入经典数据集