plant-reference-genomes
收藏魔搭社区2025-08-23 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/zhangtaolab/plant-reference-genomes
下载链接
链接失效反馈官方服务:
资源简介:
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
#### 数据说明
该数据集为植物基础DNA大语言模型的预训练数据集。
数据集中包含了由22个植物参考基因组组成的数据。基因组序列被切分成长度在1 bp至2000 bp之间的子序列。
Hardmasked基因组和Unmasked基因组序列都被用来构建预训练数据集。
Dataset file metadata and data files are available on the "Dataset Files" page.
#### Download Method
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
#### Data Description
This dataset is the pre-training dataset for the foundational DNA large language model (LLM) of plants.
The dataset consists of data from 22 plant reference genomes. Genomic sequences are split into subsequences with lengths ranging from 1 bp to 2000 bp.
Both hardmasked and unmasked genomic sequences are used to construct the pre-training dataset.
提供机构:
maas
创建时间:
2024-07-06



