greengenes

Hugging Face2025-04-08 更新2025-04-09 收录

下载链接：

https://huggingface.co/datasets/systems-genomics-lab/greengenes

下载链接

链接失效反馈

官方服务：

资源简介：

Greengenes 16S rRNA数据库的修改版，包含用于训练和评估DeepTaxa模型的16S rRNA基因序列及其层次分类注释。

A modified version of the Greengenes 16S rRNA gene database, which contains 16S rRNA gene sequences and their hierarchical taxonomic annotations for training and evaluating the DeepTaxa model.

创建时间：

2025-04-05

原始信息汇总

Greengenes数据集概述

基本信息

名称: Greengenes 16S rRNA Database
许可证: bsd-3-clause
任务类别: 文本分类
标签: 生物信息学、微生物学、微生物组、分类学分类、深度学习、16S-rRNA
数据规模: 10M<n<100M
用途: 用于训练和评估如DeepTaxa等模型

数据集详情

文件:
- gg_2024_09_training.fna.gz: 训练序列（FASTA格式）
- gg_2024_09_training.tsv.gz: 训练标签（TSV格式，包含7个分类级别）
- gg_2024_09_testing.fna.gz: 测试序列（FASTA格式）
- gg_2024_09_testing.tsv.gz: 测试标签（TSV格式，包含7个分类级别）
- gg_2024_09_training_ids.txt: 训练序列ID
- gg_2024_09_testing_ids.txt: 测试序列ID
来源: 源自Greengenes（DeSantis et al., 2006）

使用方法

bash deeptaxa train --fasta-file gg_2024_09_training.fna.gz --taxonomy-file gg_2024_09_training.tsv.gz

兼容模型

DeepTaxa

许可证

原始许可证: Modified BSD License
修改说明: 该数据集由Systems Genomics Lab修改，用于DeepTaxa，包括将数据集分为训练集和测试集，并添加ID文件。

引用

bibtex @article{DeSantis2006, author = {DeSantis, T. Z. and Hugenholtz, P. and Larsen, N. and Rojas, M. and Brodie, E. L. and Keller, K. and Huber, T. and Dalevi, D. and Hu, P. and Andersen, G. L.}, title = {Greengenes, a Chimera-Checked 16S rRNA Gene Database and Workbench Compatible with ARB}, journal = {Applied and Environmental Microbiology}, year = {2006}, doi = {10.1128/AEM.03006-05} }

联系方式

GitHub Issues

搜集汇总

数据集介绍

构建方式

在微生物组学研究领域，Greengenes数据集作为16S rRNA基因序列的权威资源，其构建过程体现了严谨的生物信息学处理流程。该数据集源自DeSantis等人2006年发布的原始Greengenes数据库，经过Systems Genomics Lab的系统化改造，采用FASTA格式存储基因序列，TSV格式记录包含7个分类层级的注释标签。特别值得注意的是，研究团队对原始数据进行了专业划分，生成独立的训练集和测试集文件，并配套提供序列ID索引文件，这种结构设计显著提升了机器学习模型训练的便利性。

特点

该数据集的核心价值在于其层次化分类体系与高质量序列的有机结合。所有16S rRNA序列均经过严格的嵌合体检测和质量控制，确保数据可靠性。数据集采用七级分类标注体系（从界到种），为微生物分类研究提供精细的参考框架。数据规模控制在千万级别，既满足深度学习模型的训练需求，又保持合理的管理复杂度。作为专为DeepTaxa模型优化的版本，其在保持原始Greengenes数据优势的同时，通过科学的训练-测试划分强化了机器学习适用性。

使用方法

该数据集的应用需结合专业生物信息学工具链。研究人员可通过DeepTaxa框架直接调用，使用命令行参数指定FASTA格式的序列文件和TSV格式的分类标签文件即可启动模型训练。测试集文件可用于评估模型在未知样本上的分类性能。为保障研究可重复性，建议严格遵循配套的序列ID文件进行数据划分。由于采用标准化的文件格式，该数据集亦可灵活接入其他生物信息学分析流程，但需注意遵守BSD-3-Clause许可协议的相关规定。

背景与挑战

背景概述

Greengenes数据库作为微生物组研究领域的里程碑式资源，由DeSantis等人于2006年在《Applied and Environmental Microbiology》期刊正式发布。该数据库聚焦16S rRNA基因序列分析，旨在解决微生物多样性研究中标准化分类参考缺失的核心问题。加州大学圣地亚哥分校团队开发的这一资源，通过提供经过嵌合体校验的高质量序列数据，显著提升了微生物群落结构分析的可靠性，其构建的七级分类体系已成为宏基因组学研究的黄金标准。近年来，Systems Genomics Lab对其进行的结构化改造（gg_2024_09版本），进一步推动了深度学习模型DeepTaxa在微生物分类预测中的应用。

当前挑战

在解决微生物分类学问题时，Greengenes数据集面临序列长度异质性导致的模型输入标准化难题，以及稀有物种样本不足引发的分类偏差问题。数据构建过程中，嵌合体序列的精准识别需要复杂的算法验证，而跨实验室测序数据整合时存在的技术批次效应，则对数据一致性提出严峻考验。此外，随着微生物分类体系的动态更新，如何保持数据库分类标准与最新分类学共识同步，成为持续维护中的持续性挑战。

常用场景

经典使用场景

在微生物组学研究中，Greengenes数据集作为16S rRNA基因序列的黄金标准，广泛应用于微生物分类学模型的训练与评估。该数据集通过提供层次化的分类注释，为研究人员构建高精度分类器提供了可靠的基础。尤其在DeepTaxa等深度学习模型的开发过程中，其标准化的数据格式和丰富的序列信息成为算法优化的关键支撑。

解决学术问题

Greengenes数据集有效解决了微生物多样性研究中序列注释准确性不足的难题。通过整合经过嵌合体校验的高质量16S rRNA序列，该数据集显著提升了物种分类的分辨率与可靠性。其层次化分类体系为微生物群落结构分析提供了标准化框架，推动了从环境样本到临床微生物组研究的范式转变。

衍生相关工作

以Greengenes为基础衍生的DeepTaxa模型开创了深度学习在微生物分类学中的应用先河。后续研究如MetaPhlAn3和QIIME2等工具均整合了该数据集，推动形成了从序列处理到生态分析的全套方法论。其数据标准更成为国际微生物组计划（IMicrobe）的参考基准。

以上内容由遇见数据集搜集并总结生成