2. Ecological genomics of the Northern krill: Genome assembly mask sequences

Mendeley Data2024-04-03 更新2024-06-28 收录

下载链接：

https://figshare.scilifelab.se/articles/dataset/2_Ecological_genomics_of_the_Northern_krill_Genome_assembly_mask_sequences/22785968/1

下载链接

链接失效反馈

官方服务：

资源简介：

genome_mask.sample_and_coverage_depth_profile_accessible_sites.fa.gz, a per-base file indicating accessible or inaccessible sites according to both mapping depth and sequence coverage computed from population genetic data. This file can be used to compute for example the number of accessible sites in windows of arbitrary lengths and correct diversity estimates. genome_mask.gene_region_profile.fa.gz, a per-base file indicating genomic regions (e.g. intergenic, intron, CDS) computed from non-redundant protein-coding gene bodies (coordinates for those are given in a GFF file in another item) genome_mask.gene_region_profile_masked_inaccessible.fa.gz, a per-base file indicating genomic regions as above, but inaccessible sites have been masked. genome_mask.repeat_masked.fa.gz, a repeat-masked version of the genome assembly. genome_mask.repeat_masked_rewritten.fa.gz, a repeat-masked version of the genome assembly, rewritten to encode repeated vs non-repeated bases differently. 0 = inaccessible sites 1 = accessible sites 1 = intergenic 2 = intron 3 = 3′-UTR 4 = exon (typically overwritten by UTRs or coding sequence) 5 = 5′-UTR 6 = CDS including any start and stop codons This item holds one major tar archive that contains three gzipped genome masks saved in FASTA format. These files represents masks for the finished genome assembly of the Northern krill. In these files, sequence names are the same as those in the main genome assembly DNA file. Instead of containing DNA sequences however, the sequences contain per-base symbols indicating accessible sites or gene regions. These masks apply to the "main" genome assembly, i.e. they match the genome assembly fasta file "1.m_norvegica.main_w_mito.fasta". Archive contents: 1. genome_mask.sample_and_coverage_depth_profile_accessible_sites.fa.gz This file contains sequence masks with the following states: Sites with more than 281x or less than 94x coverage based on short-read mappings of 74 specimens (including the reference individual) or less than 37 mappable individuals were coded as inaccessible. 2. genome_mask.gene_region_profile.fa.gz This file contains sequence masks with the following states: 3. genome_mask.gene_region_profile_masked_inaccessible.fa.gz As in (2), but inaccessible sites with states 0 from (1) have been written on top of the gene region mask. Files 2 and 3 each contains a matching "GLOBAL.csv" tab-separated spreadsheet file, respectively, detailing the length of each type of genomic region, before and after masking inaccessible sites. 4. genome_mask.repeat_masked.fa.gz This is the repeat-masked version of the main genome-assembly, with repeated-marked bases detected by RepeatMasker written in lower-case and non-repeated bases in upper case, as is standard. 5. genome_mask.repeat_masked_rewritten.fa.gz This is the repeat-masked version of the main genome-assembly, but with re-written with the following states per base: 0 = unrepeated bases 1 = repeated bases

`genome_mask.sample_and_coverage_depth_profile_accessible_sites.fa.gz`：该文件为单碱基分辨率文件，依据群体遗传学数据计算的比对深度与序列覆盖度，标注每个位点是否为可及区域。该文件可用于计算任意长度窗口内的可及位点数量，并校正多样性估计值。 `genome_mask.gene_region_profile.fa.gz`：该文件为单碱基分辨率文件，标注基因组区域类型（如基因间区、内含子、编码序列CDS），区域信息源自非冗余蛋白编码基因本体（其坐标已在另一条目的GFF格式文件中提供）。 `genome_mask.gene_region_profile_masked_inaccessible.fa.gz`：该文件与上述基因区域标注文件一致，但已将不可达位点进行掩码处理。 `genome_mask.repeat_masked.fa.gz`：基因组组装序列的重复序列掩码版本。 `genome_mask.repeat_masked_rewritten.fa.gz`：基因组组装序列的重复序列掩码版本，通过差异化编码区分重复与非重复碱基。随后给出各状态编码规则： 0 = 不可达位点，1 = 可及位点； 1 = 基因间区，2 = 内含子，3 = 3′-UTR，4 = 外显子（通常会被UTR或编码序列覆盖），5 = 5′-UTR，6 = 包含起始与终止密码子的编码序列CDS。本数据集包含一个主tar归档文件，内含三个以FASTA格式压缩的基因组掩码文件，对应北方磷虾（Northern krill）的完整基因组组装序列。此类掩码文件的序列名称与主基因组组装DNA文件完全一致，但其内容并非DNA序列，而是以单碱基符号标注可及位点或基因组区域的掩码信息。上述掩码适用于“主”基因组组装，即与基因组组装FASTA文件`1.m_norvegica.main_w_mito.fasta`匹配。归档内容详情如下： 1. `genome_mask.sample_and_coverage_depth_profile_accessible_sites.fa.gz`：该文件包含序列掩码，其状态编码规则为：基于74个标本（含参考个体）的短读长比对结果，比对深度超过281×或低于94×，或可比对标本数少于37个的位点，均被标记为不可达位点。 2. `genome_mask.gene_region_profile.fa.gz`：该文件包含序列掩码，其状态编码遵循上述基因组区域编码规则。 3. `genome_mask.gene_region_profile_masked_inaccessible.fa.gz`：与文件2的基因区域标注规则一致，但将文件1中编码为0的不可达位点叠加覆盖至基因区域掩码之上。文件2与文件3各自附带对应的制表符分隔电子表格文件`GLOBAL.csv`，分别详细记录了掩码前与掩码不可达位点后各类基因组区域的长度。 4. `genome_mask.repeat_masked.fa.gz`：该文件为主基因组组装序列的重复序列掩码版本，按照行业标准，由RepeatMasker检测到的重复碱基以小写字母编码，非重复碱基以大写字母编码。 5. `genome_mask.repeat_masked_rewritten.fa.gz`：该文件为主基因组组装序列的重复序列掩码版本，但经过重编码，单碱基状态如下：0 = 非重复碱基，1 = 重复碱基。

创建时间：

2024-03-30