alxcarln/codons

Name: alxcarln/codons
Creator: alxcarln
Published: 2024-01-13 08:15:04
License: 暂无描述

Hugging Face2024-01-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alxcarln/codons

下载链接

链接失效反馈

官方服务：

资源简介：

真菌编码序列数据集是从Ensembl Genomes获取的真菌生物体的密码子使用数据集，经过处理后在蛋白质水平上聚类到50%序列相似度，并划分为80%训练、10%验证和10%测试集，用于训练神经网络以设计看起来像天然的真菌生物体核苷酸序列。

提供机构：

alxcarln

原始信息汇总

真菌编码序列数据集

数据集概述

该数据集包含真菌生物的密码子使用情况，源自Ensembl Genomes，通过蛋白质水平的50%序列相似性聚类，并分为80%/10%/10%的训练/验证/测试集，用于训练神经网络设计真菌生物的本地化核苷酸序列。

数据处理

获取原始数据

原始数据，即真菌生物的CDS序列，从Ensembl Genomes获取，具体下载链接为：

https://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/release-57/fasta/

所有匹配模式".cds.all.fa.gz"的文件通过wget命令下载： shell wget -r -np -nH -A ".cds.all.fa.gz" ftp://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/release-57/fasta/

最终得到775,642个核苷酸序列，来自1,506个不同物种。

从核苷酸序列中调用ORF

在此步骤中，保留以ATG开头且为3的倍数的序列，不含模糊核苷酸，并移除会导致蛋白质长度超过512个残基的序列。

蛋白质水平聚类

使用MMseqs2进行聚类，命令如下： shell mmseqs createdb protein.fa proteinDB mmseqs cluster -c 0.80 --min-seq-id 0.5 proteinDB clustDB tmp mmseqs createsubdb clustDB proteinDB repDB mmseqs convert2fasta repDB rep.fa

生成259,737个50%同一性（80%覆盖率）的聚类。

训练/测试分割

数据集被分为80%训练样本（约20万），10%验证样本（约2万），和10%测试样本（约2万）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集