gold standard dataset for lineage abundance estimation from wastewater

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/enviro-lab/benchmark-deconvolute

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集用于评估和比较SARS-CoV-2谱系解卷工具在废水中的丰度估计，通过在不同背景（水背景、SARS-CoV-2阴性废水RNA提取物背景和SARS-CoV-2阳性废水RNA提取物背景）中添加控制混合物，并使用两种不同的引物方案进行测序。

This dataset is designed for evaluating and comparing the abundance estimation of SARS-CoV-2 lineage deconvolution tools in wastewater. It involves the addition of control mixtures in various backgrounds (water background, SARS-CoV-2 negative wastewater RNA extract background, and SARS-CoV-2 positive wastewater RNA extract background) and sequencing using two different primer schemes.

创建时间：

2023-11-08

原始信息汇总

数据集概述

数据集名称

名称: Benchmark Dataset for Evaluation & Comparison Of Nifty, Versatile, & Objective Lineage-Unscrambling-Tool Execution
简称: benchmark-deconvolute

数据集目的

用于评估和比较SARS-CoV-2谱系解卷工具在标准数据集上的执行情况。

数据集内容

序列数据: 包括控制混合物在不同背景下的测序结果，如水背景(WB)、SARS-CoV-2阴性废水RNA提取物背景(NWRB)和SARS-CoV-2阳性废水RNA提取物背景(PWRB)。
背景类型: 三种不同的背景类型，用于评估不同背景对测序结果的影响。
引物方案: 使用了两种不同的引物方案（Artic V4.1和VarSkip V2a）。
测序数据位置: 数据集可通过NCBI BioProject访问，编号为PRJNA1031245。

数据集详细描述

背景与引物方案组合:
- 每个板使用特定的背景和引物方案，具体组合如下：
  - 板05-05-23-A41: WB + Artic
  - 板05-05-23-V2: WB + Varskip
  - 板05-16-23-A41: NWRB + Artic
  - 板06-16-23-V2: NWRB + Varskip
  - 板06-26-23-A41: PWRB + Artic
  - 板07-12-23-V2A: PWRB + Varskip

使用的解卷工具

工具列表:
- Alcov
- Freyja
- Kallisto
- Lineagespot
- LCS
- LolliPop
- VaQuERo

工具配置与使用细节

Alcov: 使用默认设置，输入为bam文件夹和包含路径的txt文件。
Freyja: 运行freyja variants和freyja demix，使用--confirmedonly标志排除未确认的谱系。
Kallisto: 需要创建新的索引，使用100个随机选择的谱系进行谱系确定。
Lineagespot: 添加了超过2000个其他谱系，使用自定义脚本转换输入格式。
LCS: 使用ucsc标记下载公共突变信息，配置文件中设置特定版本和引物。
LolliPop: 配置为忽略时间，使用样本名作为不同位置。
VaQuERo: 设置--smoothingsamples为0，使用LoFreq处理bam文件以获取vcf文件中的等位基因频率。

结果输出格式

所有工具的输出格式被转换为与Freyja相同的格式，以便于比较。

引用信息

论文标题: A Gold Standard Dataset for Lineage Abundance Estimation from Wastewater
作者: Jannatul Ferdous Moon, Samuel Kunkleman, William Taylor, April Harris, Cynthia Gibas, Jessica Schlueter
出版: medRxiv (2024)
DOI: 10.1101/2024.02.15.24302811

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对SARS-CoV-2谱系丰度估计的严格标准，通过将控制混合物注入三种不同的背景（水背景、SARS-CoV-2阴性废水RNA提取背景和SARS-CoV-2阳性废水RNA提取背景）中，并使用两种不同的引物方案（Artic V4.1和VarSkip V2a）进行测序。测序数据包括fasta读取和元数据，这些数据可通过NCBI BioProject accession [PRJNA1031245](https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA1031245)获取。数据集的构建旨在为不同工具的比较提供一个标准化的基准，确保结果的可比性和重复性。

特点

该数据集的显著特点在于其多样性和标准化。通过在不同背景和引物方案下进行测序，数据集涵盖了广泛的变量，从而能够全面评估不同工具在谱系解混中的表现。此外，数据集的输出格式统一为Freyja的聚合格式，便于不同工具结果的直接比较。数据集还包含了详细的配置参数和工具使用说明，确保用户能够轻松复现研究结果。

使用方法

使用该数据集时，用户首先需要下载相关的fastq文件，并设置相应的conda环境。每个工具目录下都提供了详细的README文件，指导用户如何准备必要的数据集并运行工具。对于复杂的工具如kallisto，还需要运行多个脚本来准备数据库。分析结果可以通过提供的脚本进行绘图和进一步的统计分析。最终的论文图表可在[plots/paper_figures/](plots/paper_figures/)目录下找到。

背景与挑战

背景概述

在新冠疫情背景下，污水中的SARS-CoV-2病毒监测成为流行病学研究的重要组成部分。为了评估和比较不同工具在病毒谱系丰度估计中的表现，研究人员创建了名为‘gold standard dataset for lineage abundance estimation from wastewater’的数据集。该数据集由Jannatul Ferdous Moon等人于2024年发布，旨在提供一个标准化的基准，用于评估各种谱系解混工具的性能。数据集包含了通过不同引物方案和背景条件（如水背景、SARS-CoV-2阴性和阳性污水RNA提取背景）生成的序列数据，并通过NCBI BioProject accession [PRJNA1031245]公开。该数据集的发布不仅为病毒谱系丰度估计提供了标准化的评估框架，还为相关领域的研究提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临了多重挑战。首先，不同背景条件和引物方案的选择增加了数据处理的复杂性，研究人员需要在多种条件下进行实验以确保结果的普适性。其次，不同工具的输出格式各异，研究人员需要将所有工具的结果统一为相同的输出格式，以便进行公平的比较。此外，由于部分工具依赖于特定的输入格式或环境配置，确保这些工具在不同平台上的兼容性和可重复性也是一大挑战。最后，数据集的公开和使用需要确保其可访问性和易用性，以便其他研究者能够复现和扩展相关研究。

常用场景

经典使用场景

该数据集主要用于评估和比较不同SARS-CoV-2谱系反卷积工具在污水样本中的表现。通过使用标准化的数据集，研究者可以系统地比较如Alcov、Freyja、Kallisto等工具在不同背景（如水背景、SARS-CoV-2阴性污水RNA背景和阳性污水RNA背景）下的谱系丰度估计能力。这种比较不仅限于单一的背景条件，还包括了两种不同的引物方案，从而全面评估工具在不同实验条件下的性能。

衍生相关工作

基于该数据集，研究者已经开发了多种谱系反卷积工具，如Freyja、Kallisto等，这些工具在病毒谱系分析中展现了强大的应用潜力。此外，该数据集还促进了相关领域的研究，如病毒变异监测、污水样本处理技术优化等。这些衍生工作不仅丰富了病毒学研究的方法库，也为公共卫生决策提供了科学依据。

数据集最近研究