alxcarln/codons
收藏真菌编码序列数据集
数据集概述
该数据集包含真菌生物的密码子使用情况,源自Ensembl Genomes,通过蛋白质水平的50%序列相似性聚类,并分为80%/10%/10%的训练/验证/测试集,用于训练神经网络设计真菌生物的本地化核苷酸序列。
数据处理
获取原始数据
原始数据,即真菌生物的CDS序列,从Ensembl Genomes获取,具体下载链接为:
https://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/release-57/fasta/
所有匹配模式".cds.all.fa.gz"的文件通过wget命令下载: shell wget -r -np -nH -A ".cds.all.fa.gz" ftp://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/release-57/fasta/
最终得到775,642个核苷酸序列,来自1,506个不同物种。
从核苷酸序列中调用ORF
在此步骤中,保留以ATG开头且为3的倍数的序列,不含模糊核苷酸,并移除会导致蛋白质长度超过512个残基的序列。
蛋白质水平聚类
使用MMseqs2进行聚类,命令如下: shell mmseqs createdb protein.fa proteinDB mmseqs cluster -c 0.80 --min-seq-id 0.5 proteinDB clustDB tmp mmseqs createsubdb clustDB proteinDB repDB mmseqs convert2fasta repDB rep.fa
生成259,737个50%同一性(80%覆盖率)的聚类。
训练/测试分割
数据集被分为80%训练样本(约20万),10%验证样本(约2万),和10%测试样本(约2万)。



