five

small_beetle_dataset

收藏
Hugging Face2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/datasets/sbuedenb/small_beetle_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由Snakemake工作流生成的,包含了Tribolium castaneum、Tenebrio molitor和Zophobas morio等生物的基因组序列。数据集用于文本生成任务,语言为英语,主题标签为生物学。数据集大小在1MB到10MB之间。README中还指定了验证集和测试集中必须包含的染色体。
创建时间:
2025-05-02
原始信息汇总

数据集概述:Annotated Tenebrionoidea NCBI

基本信息

  • 许可证: MIT
  • 任务类别: 文本生成 (text-generation)
  • 语言: 英语 (en)
  • 标签: 生物学 (biology)
  • 数据集名称: Annotated Tenebrionoidea NCBI
  • 数据规模: 1M < n < 10M

数据来源

  • 生成方式: 通过Snakemake工作流生成,工作流来源:https://github.com/songlab-cal/gpn/tree/main/workflow/make_dataset

包含的物种及组装信息

Assembly Accession Assembly Name Organism Name
GCF_031307605.1 icTriCast1.1 Tribolium castaneum
GCF_963966145.1 icTenMoli1.1 Tenebrio molitor
GCF_036711695.1 CSIRO_AGI_Zmor_V1 Zophobas morio
GCF_015345945.1 Tmad_KSU_1.1 Tribolium madens

配置信息

  • 验证集染色体白名单:
    • "NC_087403.1" (Tribolium Castaneum chr10)
  • 测试集染色体白名单:
    • "NC_087404.1" (Tribolium Castaneum chr11)
搜集汇总
数据集介绍
main_image_url
构建方式
在生物信息学领域,small_beetle_dataset的构建采用了Snakemake工作流技术,确保了数据处理流程的可重复性和高效性。该数据集整合了四种鞘翅目昆虫的基因组数据,包括赤拟谷盗(Tribolium castaneum)、黄粉虫(Tenebrio molitor)、超级麦虫(Zophobas morio)以及Tribolium madens。通过精心设计的YAML配置文件,研究人员将特定染色体强制分配至验证集和测试集,例如将赤拟谷盗的10号染色体纳入验证集,11号染色体纳入测试集,这种构建方式为基因组学研究提供了结构化的数据支撑。
特点
该数据集以其在昆虫基因组学领域的专业性和全面性著称,涵盖了超过百万但不足千万的数据规模。数据集不仅包含基本的基因组组装信息,如组装编号、组装名称和生物体名称,还通过特定的染色体分配策略增强了其在机器学习任务中的应用价值。这种独特的结构设计使得数据集特别适合用于文本生成任务,同时也为生物学研究提供了丰富的基因组数据资源。数据集的MIT许可进一步促进了其在学术研究和商业应用中的广泛使用。
使用方法
研究人员可通过HuggingFace平台直接访问该数据集,利用其结构化的基因组数据进行文本生成模型的训练与评估。数据集内置的验证集和测试集划分建议为模型性能评估提供了可靠基准。在具体应用中,用户可依据提供的YAML配置示例,灵活调整染色体分配策略以适应不同的研究需求。该数据集与NCBI数据库的紧密关联,确保了数据的权威性和可追溯性,为生物信息学和计算生物学研究提供了坚实的数据基础。
背景与挑战
背景概述
small_beetle_dataset是由Song Lab团队基于Snakemake工作流构建的昆虫基因组数据集,专注于鞘翅目拟步甲科(Tenebrionoidea)物种的基因组注释研究。该数据集收录了包括赤拟谷盗(Tribolium castaneum)、黄粉虫(Tenebrio molitor)等重要模式生物的基因组数据,为昆虫进化发育生物学和比较基因组学研究提供了关键资源。通过系统整合NCBI的基因组组装数据,研究团队旨在建立跨物种的功能基因组分析框架,推动节肢动物适应性进化机制的解析。
当前挑战
该数据集面临的核心科学挑战在于解决高度重复序列导致的基因组注释准确性问题,特别是拟步甲科物种特有的异染色质区域注释难题。技术层面需克服不同测序平台产生的数据异构性,包括PacBio长读长与Illumina短读长的协同组装问题。数据构建过程中,研究团队需要精确设计染色体分配策略,通过白名单机制确保验证集(chr10)和测试集(chr11)的染色体特异性,这对后续模型训练的生物学合理性提出了严格要求。
常用场景
经典使用场景
在昆虫基因组学研究领域,small_beetle_dataset以其精选的拟步甲科物种基因组数据,为比较基因组学分析提供了重要基础。该数据集特别适用于研究鞘翅目昆虫的染色体进化模式,科研人员可通过跨物种比对,揭示保守基因簇与染色体重排事件的关联性。其验证集和测试集的染色体划分设计,更便于评估基因组组装算法的准确性。
衍生相关工作
该数据集已催生多项创新性研究,包括基于深度学习的基因组gap填补算法评估框架,以及昆虫性别决定基因的比较基因组学分析。在数据衍生方面,研究者将其与i5K计划数据整合,构建了鞘翅目昆虫泛基因组数据库,为昆虫适应性进化研究提供了更全面的资源基础。
数据集最近研究
最新研究方向
随着基因组学研究的深入,small_beetle_dataset作为鞘翅目昆虫基因组的重要资源,近期研究聚焦于比较基因组学和功能基因注释。该数据集整合了赤拟谷盗、黄粉虫等四种鞘翅目模式生物的组装基因组,为探究昆虫适应性进化机制提供了关键数据支撑。研究者正利用其高精度基因组数据,结合深度学习模型预测调控元件,揭示鞘翅目昆虫特殊表型形成的分子基础。在农业害虫防治领域,该数据集助力于杀虫剂靶点基因的挖掘,相关成果已应用于新型RNA农药的研发。基因组组装质量的提升使得泛基因组研究成为可能,为理解昆虫生物多样性提供了新的分析维度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作