five

RefSeq Data & Scripts for ORF dominance

收藏
DataCite Commons2022-04-07 更新2024-07-29 收录
下载链接:
https://figshare.com/articles/dataset/RefSeq_Data_Scripts_for_ORF_dominance/7269500/1
下载链接
链接失效反馈
官方服务:
资源简介:
This is the fileset for the article "Protein-coding potential of RNAs measured by open reading frame dominance" by Y.Suenaga, et al.<br><br>This fileset consists of the datasets of human (Feb 2015 and April 2018) and 8 spicies given in the article.<br><br>[Dataset]<br>- RefSeq gzipped fasta files (data/RefSeq)<br>- Scripts to generate open reading frame (ORF) dominance score and other information from RefSeq data. (script)<br><br>[How to Run Scripts]<br>- 1. Unpack a tar.xz file.<br>- 2. Run script/01_MergeFa.sh.<br>- 3. Run script/02_ORFdominance.sh.<br>- 4. Run script/03_Format.sh<br>Under data/03_Format, you can get NM.txt and NR.txt as the result.<br><br>[Note]<br>- Scripts require Linux, bash, and perl.<br>- Scripts use randomized data. Consequently, results differ slightly for the same input data.<br>- Scripts are the same files in "Scripts for ORF dominance" (DOI: 10.6084/m9.figshare.7269518).<br><br><br>

本文件集配套于Y.Suenaga等作者发表的论文《基于开放阅读框(open reading frame,ORF)优势度测算RNA的蛋白编码潜能》。 本文件集包含论文中提及的人类(2015年2月与2018年4月批次)及另外8个物种的数据集。 【数据集内容】 - 经gzip压缩的RefSeq参考序列数据库(RefSeq)FASTA格式文件,存储路径为data/RefSeq - 用于从RefSeq数据中生成开放阅读框(ORF)优势度得分及其他相关信息的脚本文件,存储路径为script 【脚本运行步骤】 1. 解压tar.xz格式压缩包 2. 执行script目录下的01_MergeFa.sh脚本 3. 执行script目录下的02_ORFdominance.sh脚本 4. 执行script目录下的03_Format.sh脚本 最终可在data/03_Format路径下获取结果文件NM.txt与NR.txt。 【注意事项】 - 本脚本需运行于Linux系统,依赖bash与perl运行环境 - 脚本使用了随机化数据处理逻辑,因此相同输入数据多次运行的结果会存在细微差异 - 本脚本与"ORF优势度分析脚本"(DOI: 10.6084/m9.figshare.7269518)中的文件完全一致。
提供机构:
figshare
创建时间:
2022-04-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作