five

brooks2015, costea2017, fouhy2016, sinha2015, parras-molto2018

收藏
github2019-09-02 更新2024-05-31 收录
下载链接:
https://github.com/mmclaren42/mc_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
用于研究宏基因组测量中实验偏差的数据集,包括16S扩增子和shotgun数据集,用于评估和校正偏差。

A dataset for studying experimental biases in metagenomic measurements, including 16S amplicon and shotgun datasets, used for evaluating and correcting biases.
创建时间:
2018-06-14
原始信息汇总

数据集概述

数据集名称

  • mc_datasets

数据集目的

  • 用于研究MGS偏差的扩增子和shotgun数据集的生物信息学分析。

数据集依赖

软件依赖

  • R包:tidyverse, dotenv, rentrez(仅在重新生成样本元数据文件时需要), dada2, phyloseq, metaphlanr(用于处理Metaphlan2输出)
  • 软件:NCBI的SRA Toolkit, Metaphlan2, Aspera的ascp(可选)

环境配置

  • 需要设置.env文件,包含各种目录路径,示例文件为.env_example

数据集结构

  • 数据存储路径由.env文件中的DATA_PATH指定,结构如下:

    $DATA_PATH |-- brooks2015 | |-- final | |-- reads | |-- supplementary_files |-- costea2017 | |-- final | |-- intermediate | |-- reads | |-- supplementary_files `-- sinha2017 |-- reads |-- filtered

  • 每个项目的原始序列数据存储在reads文件夹中,生成的phyloseq对象存储在final文件夹中,中间分析产品存储在intermediate文件夹中。

数据集详情

brooks2015

  • 类型:16S amplicon
  • 来源:Brooks et al., 2015
  • 描述:关于16S rRNA研究的偏差量化和校正。

costea2017

  • 类型:shotgun
  • 来源:Costea et al., 2017
  • 描述:人类粪便样本处理在宏基因组研究中的标准。

fouhy2016

  • 类型:16S amplicon
  • 来源:Fouhy et al., 2016
  • 描述:DNA提取方法、引物选择和测序平台对模拟微生物群落16S rRNA基因测序的影响。

sinha2017

  • 类型:16S amplicon
  • 来源:Sinha et al., 2017
  • 描述:通过Microbiome Quality Control (MBQC)项目评估微生物社区扩增子测序的变异性。

parras-molto2018

  • 类型:viral, qPCR
  • 来源:Parras-Moltó et al., 2018
  • 描述:评估病毒富集和随机扩增协议在唾液DNA病毒宏基因组调查中引入的偏差。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建涉及多个微生物组学领域的子集,包括16S扩增子数据和宏基因组数据。每个子集均按照特定的目录结构组织,其中原始序列数据存储于`reads`文件夹,中间分析产物存放于`intermediate`文件夹,最终分析结果则保存在`final`文件夹。Brooks2015和Fouhy2016等数据集为16S扩增子数据,而Costea2017数据集则是基于宏基因组学的 shotgun 数据。各个数据集均通过相应的生物信息学工具和R语言包进行预处理和整合,确保数据的质量和一致性。
特点
本数据集的特色在于其全面性及多样性,涵盖了不同类型的数据(如16S扩增子、宏基因组、病毒宏基因组等),适合进行微生物组偏倚研究。此外,数据集的目录结构清晰,有助于用户快速定位所需数据和分析结果。每个子集都配备了详尽的补充文件,以支持后续的数据解读和元分析。数据集构建时考虑了生物信息学的最佳实践,确保了数据处理的透明度和可重复性。
使用方法
使用该数据集时,用户需先配置环境文件`.env`,其中定义了数据存储路径等关键变量。数据集的访问和操作通过R语言环境进行,其中`tidyverse`、`dada2`、`phyloseq`等包是必备工具。对于宏基因组数据,还需使用`Metaphlan2`进行微生物群落分析。用户可以根据自身需求,从相应的文件夹中提取所需的数据类型,进行后续的微生物组学分析。
背景与挑战
背景概述
mc_datasets数据集集合了多个用于研究微生物组测序偏倚的amplicon和shotgun数据集。这些数据集的创建旨在促进生物信息学分析,其研究背景始于Brooks等人2015年的工作,他们通过对16S rRNA测序的研究,揭示了微生物组测序中的偏倚问题。此后,多个研究团队如Costea等人于2017年,Fouhy等人于2016年,Sinha等人于2015年,以及Parras-Molto等人于2018年,分别基于各自的研究需求,对微生物组样本进行了深入分析,涉及了从16S amplicon到shotgun测序,再到病毒组学等多个领域,这些研究对微生物组学领域产生了深远的影响。
当前挑战
尽管mc_datasets为微生物组学研究提供了宝贵的数据资源,但在使用过程中也存在一些挑战。首先,数据集构建过程中,研究人员必须面对如何减少测序偏倚的核心问题。其次,不同数据集在数据预处理和分析上可能存在差异,例如DNA提取方法、引物选择和测序平台的不同,这些都可能影响最终的测序结果。此外,数据集的多样性和复杂性要求研究人员具备相应的生物信息学技能,以便正确解读和使用这些数据。
常用场景
经典使用场景
在微生物组学研究中,mc_datasets数据集被广泛应用于探究16S rRNA基因测序过程中的MGS(微生物组测序)偏倚问题。该数据集包含了多个子数据集,如brooks2015和costea2017等,这些子数据集分别针对16S扩增子数据和宏基因组数据,为研究者提供了丰富的实验数据,以评估和校正测序过程中的偏差。
实际应用
在实际应用中,mc_datasets数据集的应用范围广泛。例如,在临床微生物学中,该数据集有助于研究人员识别和分析病原微生物的遗传特征,为疾病诊断和治疗提供数据支持。在环境科学领域,通过分析微生物群落结构,研究者能够更好地理解环境变化对微生物生态系统的影响。
衍生相关工作
基于mc_datasets数据集,衍生出了一系列相关的研究工作。这些研究不仅涉及微生物组测序偏倚的评估和校正,还扩展到了微生物群落的多样性分析、功能预测以及与人类健康的关联性研究。这些工作进一步推动了微生物组学在科学研究和临床应用中的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务