five

Datasets and codes for repeats annotation in genome

收藏
Mendeley Data2024-03-27 更新2024-06-26 收录
下载链接:
https://data.mendeley.com/datasets/k88h5xnhcb
下载链接
链接失效反馈
官方服务:
资源简介:
1) Files begin with 'all_retrovirus.' in 'report_run' are data we used to identify retrovirus (see detail in supplementary 1.5.3); 2) Files begin with 'GB_TE.new' in 'GBTE_data' are index files we used to identify reverse transcriptase and TE sequences from NCBI (see detail in supplementary 1.5.3); 3) 'report_run' are codes used to run reportsJ.pl (see detail in supplementary 1.5.3); 4) Files begin with 'sprot.' in 'report_run' are index files we used to identify proteins (see detail in supplementary 1.5.3); 5) 'Vertebrate_use.fa' is Vertebrate repeat consensus sequences downloaded from Repbase, we used it as CENSOR library (see detail in supplementary 1.5.1); 6) 'our_known_reps_20130520' was used in the first CENSOR run (see detail in supplementary 1.5.1). 7) 'RepBase20.04.fasta' used in last step of TE annotation, contains CENSOR TE references

1) `report_run`目录下以`all_retrovirus.`为前缀的文件,为本研究用于鉴定逆转录病毒的数据集(详细说明参见补充材料1.5.3);2) `GBTE_data`目录下以`GB_TE.new`为前缀的文件,为本研究用于从美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)中鉴定逆转录酶与转座因子(transposable element, TE)序列的索引文件(详细说明参见补充材料1.5.3);3) `report_run`为用于执行`reportsJ.pl`的代码集(详细说明参见补充材料1.5.3);4) `report_run`目录下以`sprot.`为前缀的文件,为本研究用于鉴定蛋白质的索引文件(详细说明参见补充材料1.5.3);5) `Vertebrate_use.fa`为从Repbase数据库下载的脊椎动物重复序列共有序列,本研究将其用作CENSOR文库(详细说明参见补充材料1.5.1);6) `our_known_reps_20130520`用于首次CENSOR注释流程(详细说明参见补充材料1.5.1);7) `RepBase20.04.fasta`用于转座因子注释流程的最后一步,其包含CENSOR转座因子参考序列集
创建时间:
2024-01-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作