five

zhangtaolab/plant-reference-genomes

收藏
Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/zhangtaolab/plant-reference-genomes
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于预训练的植物基础DNA大型语言模型。数据集包含22种植物的参考基因组,基因组序列经过处理,长度范围从1 bp到2000 bp。数据集使用了硬掩码基因组和非掩码基因组来生成预训练数据集。

This is the dataset used for pre-trained plant foundation DNA large language models. The dataset contains a collection of 22 plant reference genomes. Genome sequences are processed to fit lengths range from 1 bp to 2000 bp. Both hardmasked genomes and unmasked genomes are used to generate the pre-train dataset.
提供机构:
zhangtaolab
原始信息汇总

数据集概述

基本信息

  • 许可证: CC BY-NC-SA 4.0
  • 标签:
    • plant
    • genomics

数据内容

  • 数据类型: 植物参考基因组
  • 数量: 22个植物参考基因组
  • 处理方式: 基因组序列被处理以适应长度范围从1 bp到2000 bp
  • 包含内容:
    • 硬掩码基因组
    • 未掩码基因组

用途

  • 用于预训练植物基础DNA大型语言模型
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作