five

suke-sho/athaliana-genome-corpus

收藏
Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/suke-sho/athaliana-genome-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自NCBI的模型植物基因组数据,经过处理和清洗,适用于研究和预训练。默认配置为6kbp,提供6.2kbp的DNA片段,每侧有100bp的重叠。序列仅包含字母A、T、C、G和N,确保高质量基因组数据,适用于各种生物信息学和机器学习应用。

该数据集包含来自NCBI的模型植物基因组数据,经过处理和清洗,适用于研究和预训练。默认配置为6kbp,提供6.2kbp的DNA片段,每侧有100bp的重叠。序列仅包含字母A、T、C、G和N,确保高质量基因组数据,适用于各种生物信息学和机器学习应用。
提供机构:
suke-sho
原始信息汇总

数据集概述

数据集名称

Arabidopsis Genome Corpus

数据集描述

该数据集包含由NCBI提供的模式植物基因组,专门为研究和预训练目的进行处理和清洗。默认配置“6kbp”提供6.2kbp大小的DNA片段,每侧有100bp的交叠。序列经过清洗和处理,仅包含字母A、T、C、G和N,确保高质量的基因组数据,适用于各种生物信息学和机器学习应用。

数据集详情

  • 主页:NCBI
  • 许可证:NCBI政策
  • 版本:1.1.0
  • 大小:根据配置变化
  • 默认配置:6kbp片段

数据集用途示例

python from datasets import load_dataset

默认片段大小为6000

chunk_length = 1024 repo = "suke-sho/arabidopsis_genome_corpus" datasets = load_dataset(repo, trust_remote_code=True, chunk_length=chunk_length)

致谢

本数据集是“InstaDeepAI/plant-multi-species-genomes”数据集及脚本的改编版本。特别感谢InstaDeepAI提供的原始工作。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作