five

neuralbioinfo/ESKAPE-masking

收藏
Hugging Face2025-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuralbioinfo/ESKAPE-masking
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于评估不同模型在基因组序列掩码任务中的表现,衡量不同模型恢复原始字符的能力。数据集来源于RefSeq数据库和其他来源,特别关注ESKAPE病原体。基因组特征被随机采样,随后进行连续分段。数据集包含不同长度的片段:[128, 256, 512, 1024]。片段被随机选择,其中一个字符被替换为*(masked_segment列)以创建掩码任务。reference_segment包含未替换的原始核苷酸。每个集合进行了10,000次掩码处理,最多包含2,000个基因组特征。仅考虑了以下基因组特征:CDS、intergenic、pseudogene和ncRNA。

该数据集用于评估不同模型在基因组序列掩码任务中的表现,衡量不同模型恢复原始字符的能力。数据集来源于RefSeq数据库和其他来源,特别关注ESKAPE病原体。基因组特征被随机采样,随后进行连续分段。数据集包含不同长度的片段:[128, 256, 512, 1024]。片段被随机选择,其中一个字符被替换为*(masked_segment列)以创建掩码任务。reference_segment包含未替换的原始核苷酸。每个集合进行了10,000次掩码处理,最多包含2,000个基因组特征。仅考虑了以下基因组特征:CDS、intergenic、pseudogene和ncRNA。
提供机构:
neuralbioinfo
原始信息汇总

数据集描述

该数据集用于评估不同模型在掩码任务中的表现,测量模型恢复原始字符的能力。

数据集概览

数据集从RefSeq数据库和其他来源编译而来,重点关注ESKAPE病原体。基因组特征是随机采样,然后进行连续分割。该数据集包含不同长度的片段:[128, 256, 512, 1024]。这些片段是随机选择的,其中一个字符被替换为*(掩码片段列)以创建掩码任务。reference_segment包含原始的、未替换的核苷酸。我们对每个集合进行了10,000次掩码,最多包含2,000个基因组特征。只考虑了基因组特征:CDS, intergenic, pseudogene, 和 ncRNA。

数据字段

  • reference_segment_id: 片段标识符与其在数据库中的相应参考ID的映射。
  • masked_segment: 用于预测或测试目的的某些位置被掩码(标记为*)的片段的DNA序列。
  • position_to_mask: 序列中被掩码的特定位置,由索引号表示。
  • masked_segment_id: 分配给掩码片段的唯一标识符。(仅在长度上唯一)
  • contig_id: 片段所属的contig的标识符。
  • segment_id: 每个基因组片段的唯一标识符(与参考片段ID相同)。
  • strand: 片段的DNA链,表示为+(正)或-(负)。
  • seq_start: 片段在contig中的起始位置。
  • seq_end: 片段在contig中的结束位置。
  • segment_start: 基因组片段在序列中的起始位置。
  • segment_end: 基因组片段在序列中的结束位置。
  • label: 基因组片段的类别标签(例如,CDS, intergenic)。
  • segment_length: 基因组片段的长度。
  • original_segment: 没有任何掩码的原始基因组序列。

使用

该数据集旨在用于学术和研究目的。鼓励用户在生物信息学模型的开发和评估中使用此数据集,特别是那些与基因组研究相关的模型。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作