zhangtaolab/plant-reference-genomes
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/zhangtaolab/plant-reference-genomes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于预训练的植物基础DNA大型语言模型。数据集包含22种植物的参考基因组,基因组序列经过处理,长度范围从1 bp到2000 bp。数据集使用了硬掩码基因组和非掩码基因组来生成预训练数据集。
This is the dataset used for pre-trained plant foundation DNA large language models. The dataset contains a collection of 22 plant reference genomes. Genome sequences are processed to fit lengths range from 1 bp to 2000 bp. Both hardmasked genomes and unmasked genomes are used to generate the pre-train dataset.
提供机构:
zhangtaolab
原始信息汇总
数据集概述
基本信息
- 许可证: CC BY-NC-SA 4.0
- 标签:
- plant
- genomics
数据内容
- 数据类型: 植物参考基因组
- 数量: 22个植物参考基因组
- 处理方式: 基因组序列被处理以适应长度范围从1 bp到2000 bp
- 包含内容:
- 硬掩码基因组
- 未掩码基因组
用途
- 用于预训练植物基础DNA大型语言模型



