five

MycoMobilome

收藏
github2025-10-29 更新2025-11-05 收录
下载链接:
https://github.com/TobyBaril/MycoMobilome
下载链接
链接失效反馈
官方服务:
资源简介:
MycoMobilome是一个针对真菌王国的非冗余转座因子共识序列数据库,通过可重复方法生成,整合了来自JGI和NCBI的所有公开可用真菌基因组资源。该数据库未经过人工筛选,但所有共识序列均使用一致的流程生成,旨在促进真菌多样性的研究,并支持社区贡献和版本控制。

MycoMobilome is a non-redundant consensus sequence database of transposable elements targeting the fungal kingdom. It was generated via reproducible methodologies, integrating all publicly available fungal genomic resources from the Joint Genome Institute (JGI) and the National Center for Biotechnology Information (NCBI). This database has not undergone manual curation, yet all consensus sequences are produced using a consistent workflow. It is designed to advance research on fungal diversity, and supports community contributions and version control.
创建时间:
2025-10-28
原始信息汇总

MycoMobilome 数据集概述

数据集基本信息

  • 名称:MycoMobilome
  • 类型:真菌界转座子元件一致性序列非冗余数据库
  • 版本:v1.0
  • DOI:https://doi.org/10.5281/zenodo.17473060
  • 相关论文:https://www.biorxiv.org/content/10.1101/2025.10.28.685023v1

数据来源与生成方法

  • 数据来源:JGI和NCBI所有公开可用的真菌基因组资源(不包括受限组装)
  • 生成工具:使用Earl Grey进行一致性、可重复的转座子元件注释流程
  • 处理步骤
    • 使用earlGreyLibConstruct生成假定的转座子元件一致性序列
    • 使用MMseqs2进行非冗余聚类
    • 使用EMBOSS检测开放阅读框
    • 使用Diamond BLASTp识别与已知宿主蛋白的匹配
    • 使用HMMER和BLASTp识别与已知转座子蛋白域的匹配
    • 过滤掉潜在宿主基因和低质量序列

数据库内容

  • 总序列数:276,641条转座子元件一致性序列
  • 序列长度:所有序列≥120bp且N含量<5%
  • 证据分类
    • _PE:蛋白质证据支持分类
    • _DA:蛋白质证据与分类矛盾
    • _NE:无蛋白质证据可用

数据库文件

  • 主要数据库文件

    • MycoMobilome_v1.0-allConsensus_TE_library.fasta:所有已知和未知转座子元件一致性序列
    • MycoMobilome_v1.0-proteinEvidence_TE_library.fasta:具有已知转座子蛋白ORF命中的转座子元件一致性序列
    • MycoMobilome_v1.0-unknown_TE_library.fasta:无蛋白质证据支持其作为真正转座子状态的转座子元件一致性序列
  • 辅助文件

    • MycoMobilome_v1.0_assemblyRecord.xlsx:用于生成MycoMobilome的所有公开可用基因组组装记录
    • MycoMobilome-hitsToKnownTransposonProteins-repetPfam35.txt:与REPET Pfam 35.0和Gypsy DB TE域数据集的hmmscan命中结果
    • MycoMobilome-hitsToKnownTransposonProteins-rmRepeatPeps.txt:与RepeatMasker RepeatPeps.lib文件的BLASTp命中结果

使用指南

  • 推荐工具:Earl Grey(可从Bioconda或Docker安装)
  • 基本使用流程
    1. 安装Earl Grey
    2. 下载MycoMobilome数据库
    3. 解压缩数据库文件
    4. 选择合适的数据库版本
    5. 运行注释命令

社区贡献

  • 贡献平台:https://zenodo.org/communities/mycomobilome/
  • 贡献内容:手动注释的序列或新基因组组装中的从头检测序列
  • 贡献好处:获得提交的DOI,纳入未来MycoMobilome版本

注意事项

  • 这是一个未经人工审核的数据库
  • 所有非自主元件都将带有_NE标签
  • 建议对重要或有趣的转座子位点进行个案检查
  • 对于大多数用例,建议使用完整的MycoMobilome v1.0数据集
搜集汇总
数据集介绍
main_image_url
构建方式
在真菌基因组学研究领域,MycoMobilome数据库通过系统化的计算流程构建而成。该数据库整合了JGI和NCBI平台公开的4309个真菌基因组资源,采用Earl Grey工具进行标准化的转座元件注释流程。通过MMseqs2的级联聚类算法去除冗余序列,保留354,315条代表性序列。随后运用生物信息学方法鉴定开放阅读框,分别使用HMMER和BLASTp比对REPET蛋白域数据库和RepeatMasker重复蛋白库,通过多轮过滤去除宿主基因片段和低质量序列,最终形成包含276,641条转座元件共识序列的非冗余数据库。
特点
该数据库的显著特征体现在其严谨的证据分级体系。所有序列根据蛋白域支持证据分为三个类别:具有蛋白证据支持的_PE类别、存在分类争议的_DA类别以及缺乏蛋白证据的_NE类别。为满足不同研究需求,数据库提供三个定制化版本:完整版包含所有已知和未知转座元件,蛋白证据版专注具有已知转座蛋白同源性的序列,未知元件版则收录缺乏蛋白证据但可能代表新型转座元件的序列。这种分级设计既确保了数据的可靠性,又为探索真菌转座元件多样性保留了空间。
使用方法
研究人员可通过Bioconda或Docker安装Earl Grey软件平台来使用该数据库。具体操作包括下载数据库文件、选择适合的分析策略:若仅需注释已知转座元件,可使用earlGreyAnnotationOnly模块直接比对;若需发现新元件,则运行完整earlGrey流程进行de novo注释并与数据库整合。数据库提供配套的基因组组装记录表和蛋白域比对结果,支持用户深入验证特定元件的分类依据。通过Zenodo社区平台,用户还可提交新发现的转座元件序列,参与数据库的持续完善。
背景与挑战
背景概述
真菌基因组研究领域长期面临转座元件注释标准不统一的挑战,MycoMobilome数据库应运而生。该数据库由国际真菌基因组学研究团队于2024年创建,整合了来自JGI和NCBI的4309个公开真菌基因组资源,通过标准化流程构建了包含276,641条非冗余转座元件共识序列的综合性数据库。其核心目标在于解决真菌转座元件注释中存在的命名规范混乱和重复劳动问题,通过提供统一的注释框架显著提升了真菌基因组比较研究的可靠性和效率。
当前挑战
在真菌转座元件研究领域,主要挑战体现在物种间转座元件多样性差异巨大且缺乏系统注释标准,导致跨物种比较研究困难重重。数据库构建过程中面临多重技术挑战:首先需要处理海量基因组数据中存在的组装质量不均问题,其次需通过复杂算法区分真正的转座元件与宿主基因片段,特别是非自主元件的准确识别尤为困难。此外,保持数据库持续更新并整合社区贡献的同时确保数据质量,构成了长期维护的重要挑战。
常用场景
经典使用场景
在真菌基因组学领域,MycoMobilome数据库作为转座元件共识序列的非冗余资源,其经典应用场景主要体现在系统性的转座元件注释工作中。研究人员通过整合该数据库与Earl Grey分析工具,能够对真菌基因组中的转座元件进行高效识别与分类,特别适用于大规模比较基因组学研究。这种标准化流程显著提升了跨物种转座元件分析的可靠性,为探索真菌进化机制提供了关键数据支撑。
解决学术问题
该数据库有效解决了真菌转座元件研究中长期存在的命名规范混乱与重复注释问题。通过提供统一标准的共识序列库,它使得研究人员能够突破传统de novo注释的局限性,实现跨物种转座元件家族的准确比对与进化分析。这种系统化的数据资源极大促进了真菌转座元件多样性研究,为理解其在基因组演化中的动力学作用奠定了坚实基础。
衍生相关工作
基于MycoMobilome数据库已衍生出多项重要研究工作,其中最具代表性的是真菌转座元件进化动力学的大规模比较分析。研究人员通过整合该数据库与系统发育学方法,揭示了转座元件在真菌适应性进化中的重要作用。此外,该资源还促进了新型转座元件挖掘工具的开发,以及真菌基因组重复序列注释标准的建立,形成了一系列标准化的生物信息学分析流程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作