neuralbioinfo/ESKAPE-masking
收藏Hugging Face2025-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuralbioinfo/ESKAPE-masking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估不同模型在基因组序列掩码任务中的表现,衡量不同模型恢复原始字符的能力。数据集来源于RefSeq数据库和其他来源,特别关注ESKAPE病原体。基因组特征被随机采样,随后进行连续分段。数据集包含不同长度的片段:[128, 256, 512, 1024]。片段被随机选择,其中一个字符被替换为*(masked_segment列)以创建掩码任务。reference_segment包含未替换的原始核苷酸。每个集合进行了10,000次掩码处理,最多包含2,000个基因组特征。仅考虑了以下基因组特征:CDS、intergenic、pseudogene和ncRNA。
该数据集用于评估不同模型在基因组序列掩码任务中的表现,衡量不同模型恢复原始字符的能力。数据集来源于RefSeq数据库和其他来源,特别关注ESKAPE病原体。基因组特征被随机采样,随后进行连续分段。数据集包含不同长度的片段:[128, 256, 512, 1024]。片段被随机选择,其中一个字符被替换为*(masked_segment列)以创建掩码任务。reference_segment包含未替换的原始核苷酸。每个集合进行了10,000次掩码处理,最多包含2,000个基因组特征。仅考虑了以下基因组特征:CDS、intergenic、pseudogene和ncRNA。
提供机构:
neuralbioinfo
原始信息汇总
数据集描述
该数据集用于评估不同模型在掩码任务中的表现,测量模型恢复原始字符的能力。
数据集概览
数据集从RefSeq数据库和其他来源编译而来,重点关注ESKAPE病原体。基因组特征是随机采样,然后进行连续分割。该数据集包含不同长度的片段:[128, 256, 512, 1024]。这些片段是随机选择的,其中一个字符被替换为*(掩码片段列)以创建掩码任务。reference_segment包含原始的、未替换的核苷酸。我们对每个集合进行了10,000次掩码,最多包含2,000个基因组特征。只考虑了基因组特征:CDS, intergenic, pseudogene, 和 ncRNA。
数据字段
reference_segment_id: 片段标识符与其在数据库中的相应参考ID的映射。masked_segment: 用于预测或测试目的的某些位置被掩码(标记为*)的片段的DNA序列。position_to_mask: 序列中被掩码的特定位置,由索引号表示。masked_segment_id: 分配给掩码片段的唯一标识符。(仅在长度上唯一)contig_id: 片段所属的contig的标识符。segment_id: 每个基因组片段的唯一标识符(与参考片段ID相同)。strand: 片段的DNA链,表示为+(正)或-(负)。seq_start: 片段在contig中的起始位置。seq_end: 片段在contig中的结束位置。segment_start: 基因组片段在序列中的起始位置。segment_end: 基因组片段在序列中的结束位置。label: 基因组片段的类别标签(例如,CDS, intergenic)。segment_length: 基因组片段的长度。original_segment: 没有任何掩码的原始基因组序列。
使用
该数据集旨在用于学术和研究目的。鼓励用户在生物信息学模型的开发和评估中使用此数据集,特别是那些与基因组研究相关的模型。



