five

alxcarln/codons

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alxcarln/codons
下载链接
链接失效反馈
官方服务:
资源简介:
真菌编码序列数据集是从Ensembl Genomes获取的真菌生物体的密码子使用数据集,经过处理后在蛋白质水平上聚类到50%序列相似度,并划分为80%训练、10%验证和10%测试集,用于训练神经网络以设计看起来像天然的真菌生物体核苷酸序列。

真菌编码序列数据集是从Ensembl Genomes获取的真菌生物体的密码子使用数据集,经过处理后在蛋白质水平上聚类到50%序列相似度,并划分为80%训练、10%验证和10%测试集,用于训练神经网络以设计看起来像天然的真菌生物体核苷酸序列。
提供机构:
alxcarln
原始信息汇总

真菌编码序列数据集

数据集概述

该数据集包含真菌生物的密码子使用情况,源自Ensembl Genomes,通过蛋白质水平的50%序列相似性聚类,并分为80%/10%/10%的训练/验证/测试集,用于训练神经网络设计真菌生物的本地化核苷酸序列。

数据处理

获取原始数据

原始数据,即真菌生物的CDS序列,从Ensembl Genomes获取,具体下载链接为:

https://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/release-57/fasta/

所有匹配模式".cds.all.fa.gz"的文件通过wget命令下载: shell wget -r -np -nH -A ".cds.all.fa.gz" ftp://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/release-57/fasta/

最终得到775,642个核苷酸序列,来自1,506个不同物种。

从核苷酸序列中调用ORF

在此步骤中,保留以ATG开头且为3的倍数的序列,不含模糊核苷酸,并移除会导致蛋白质长度超过512个残基的序列。

蛋白质水平聚类

使用MMseqs2进行聚类,命令如下: shell mmseqs createdb protein.fa proteinDB mmseqs cluster -c 0.80 --min-seq-id 0.5 proteinDB clustDB tmp mmseqs createsubdb clustDB proteinDB repDB mmseqs convert2fasta repDB rep.fa

生成259,737个50%同一性(80%覆盖率)的聚类。

训练/测试分割

数据集被分为80%训练样本(约20万),10%验证样本(约2万),和10%测试样本(约2万)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作