suke-sho/athaliana-genome-corpus
收藏Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/suke-sho/athaliana-genome-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自NCBI的模型植物基因组数据,经过处理和清洗,适用于研究和预训练。默认配置为6kbp,提供6.2kbp的DNA片段,每侧有100bp的重叠。序列仅包含字母A、T、C、G和N,确保高质量基因组数据,适用于各种生物信息学和机器学习应用。
该数据集包含来自NCBI的模型植物基因组数据,经过处理和清洗,适用于研究和预训练。默认配置为6kbp,提供6.2kbp的DNA片段,每侧有100bp的重叠。序列仅包含字母A、T、C、G和N,确保高质量基因组数据,适用于各种生物信息学和机器学习应用。
提供机构:
suke-sho
原始信息汇总
数据集概述
数据集名称
Arabidopsis Genome Corpus
数据集描述
该数据集包含由NCBI提供的模式植物基因组,专门为研究和预训练目的进行处理和清洗。默认配置“6kbp”提供6.2kbp大小的DNA片段,每侧有100bp的交叠。序列经过清洗和处理,仅包含字母A、T、C、G和N,确保高质量的基因组数据,适用于各种生物信息学和机器学习应用。
数据集详情
- 主页:NCBI
- 许可证:NCBI政策
- 版本:1.1.0
- 大小:根据配置变化
- 默认配置:6kbp片段
数据集用途示例
python from datasets import load_dataset
默认片段大小为6000
chunk_length = 1024 repo = "suke-sho/arabidopsis_genome_corpus" datasets = load_dataset(repo, trust_remote_code=True, chunk_length=chunk_length)
致谢
本数据集是“InstaDeepAI/plant-multi-species-genomes”数据集及脚本的改编版本。特别感谢InstaDeepAI提供的原始工作。



