gold standard dataset for lineage abundance estimation from wastewater
收藏github2024-05-09 更新2024-05-31 收录
下载链接:
https://github.com/enviro-lab/benchmark-deconvolute
下载链接
链接失效反馈官方服务:
资源简介:
本数据集用于评估和比较SARS-CoV-2谱系解卷工具在废水中的丰度估计,通过在不同背景(水背景、SARS-CoV-2阴性废水RNA提取物背景和SARS-CoV-2阳性废水RNA提取物背景)中添加控制混合物,并使用两种不同的引物方案进行测序。
This dataset is designed for evaluating and comparing the abundance estimation of SARS-CoV-2 lineage deconvolution tools in wastewater. It involves the addition of control mixtures in various backgrounds (water background, SARS-CoV-2 negative wastewater RNA extract background, and SARS-CoV-2 positive wastewater RNA extract background) and sequencing using two different primer schemes.
创建时间:
2023-11-08
原始信息汇总
数据集概述
数据集名称
- 名称: Benchmark Dataset for Evaluation & Comparison Of Nifty, Versatile, & Objective Lineage-Unscrambling-Tool Execution
- 简称: benchmark-deconvolute
数据集目的
- 用于评估和比较SARS-CoV-2谱系解卷工具在标准数据集上的执行情况。
数据集内容
- 序列数据: 包括控制混合物在不同背景下的测序结果,如水背景(WB)、SARS-CoV-2阴性废水RNA提取物背景(NWRB)和SARS-CoV-2阳性废水RNA提取物背景(PWRB)。
- 背景类型: 三种不同的背景类型,用于评估不同背景对测序结果的影响。
- 引物方案: 使用了两种不同的引物方案(Artic V4.1和VarSkip V2a)。
- 测序数据位置: 数据集可通过NCBI BioProject访问,编号为PRJNA1031245。
数据集详细描述
- 背景与引物方案组合:
- 每个板使用特定的背景和引物方案,具体组合如下:
- 板05-05-23-A41: WB + Artic
- 板05-05-23-V2: WB + Varskip
- 板05-16-23-A41: NWRB + Artic
- 板06-16-23-V2: NWRB + Varskip
- 板06-26-23-A41: PWRB + Artic
- 板07-12-23-V2A: PWRB + Varskip
- 每个板使用特定的背景和引物方案,具体组合如下:
使用的解卷工具
- 工具列表:
- Alcov
- Freyja
- Kallisto
- Lineagespot
- LCS
- LolliPop
- VaQuERo
工具配置与使用细节
- Alcov: 使用默认设置,输入为bam文件夹和包含路径的txt文件。
- Freyja: 运行freyja variants和freyja demix,使用--confirmedonly标志排除未确认的谱系。
- Kallisto: 需要创建新的索引,使用100个随机选择的谱系进行谱系确定。
- Lineagespot: 添加了超过2000个其他谱系,使用自定义脚本转换输入格式。
- LCS: 使用ucsc标记下载公共突变信息,配置文件中设置特定版本和引物。
- LolliPop: 配置为忽略时间,使用样本名作为不同位置。
- VaQuERo: 设置--smoothingsamples为0,使用LoFreq处理bam文件以获取vcf文件中的等位基因频率。
结果输出格式
- 所有工具的输出格式被转换为与Freyja相同的格式,以便于比较。
引用信息
- 论文标题: A Gold Standard Dataset for Lineage Abundance Estimation from Wastewater
- 作者: Jannatul Ferdous Moon, Samuel Kunkleman, William Taylor, April Harris, Cynthia Gibas, Jessica Schlueter
- 出版: medRxiv (2024)
- DOI: 10.1101/2024.02.15.24302811
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对SARS-CoV-2谱系丰度估计的严格标准,通过将控制混合物注入三种不同的背景(水背景、SARS-CoV-2阴性废水RNA提取背景和SARS-CoV-2阳性废水RNA提取背景)中,并使用两种不同的引物方案(Artic V4.1和VarSkip V2a)进行测序。测序数据包括fasta读取和元数据,这些数据可通过NCBI BioProject accession [PRJNA1031245](https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA1031245)获取。数据集的构建旨在为不同工具的比较提供一个标准化的基准,确保结果的可比性和重复性。
特点
该数据集的显著特点在于其多样性和标准化。通过在不同背景和引物方案下进行测序,数据集涵盖了广泛的变量,从而能够全面评估不同工具在谱系解混中的表现。此外,数据集的输出格式统一为Freyja的聚合格式,便于不同工具结果的直接比较。数据集还包含了详细的配置参数和工具使用说明,确保用户能够轻松复现研究结果。
使用方法
使用该数据集时,用户首先需要下载相关的fastq文件,并设置相应的conda环境。每个工具目录下都提供了详细的README文件,指导用户如何准备必要的数据集并运行工具。对于复杂的工具如kallisto,还需要运行多个脚本来准备数据库。分析结果可以通过提供的脚本进行绘图和进一步的统计分析。最终的论文图表可在[plots/paper_figures/](plots/paper_figures/)目录下找到。
背景与挑战
背景概述
在新冠疫情背景下,污水中的SARS-CoV-2病毒监测成为流行病学研究的重要组成部分。为了评估和比较不同工具在病毒谱系丰度估计中的表现,研究人员创建了名为‘gold standard dataset for lineage abundance estimation from wastewater’的数据集。该数据集由Jannatul Ferdous Moon等人于2024年发布,旨在提供一个标准化的基准,用于评估各种谱系解混工具的性能。数据集包含了通过不同引物方案和背景条件(如水背景、SARS-CoV-2阴性和阳性污水RNA提取背景)生成的序列数据,并通过NCBI BioProject accession [PRJNA1031245]公开。该数据集的发布不仅为病毒谱系丰度估计提供了标准化的评估框架,还为相关领域的研究提供了宝贵的资源。
当前挑战
该数据集在构建过程中面临了多重挑战。首先,不同背景条件和引物方案的选择增加了数据处理的复杂性,研究人员需要在多种条件下进行实验以确保结果的普适性。其次,不同工具的输出格式各异,研究人员需要将所有工具的结果统一为相同的输出格式,以便进行公平的比较。此外,由于部分工具依赖于特定的输入格式或环境配置,确保这些工具在不同平台上的兼容性和可重复性也是一大挑战。最后,数据集的公开和使用需要确保其可访问性和易用性,以便其他研究者能够复现和扩展相关研究。
常用场景
经典使用场景
该数据集主要用于评估和比较不同SARS-CoV-2谱系反卷积工具在污水样本中的表现。通过使用标准化的数据集,研究者可以系统地比较如Alcov、Freyja、Kallisto等工具在不同背景(如水背景、SARS-CoV-2阴性污水RNA背景和阳性污水RNA背景)下的谱系丰度估计能力。这种比较不仅限于单一的背景条件,还包括了两种不同的引物方案,从而全面评估工具在不同实验条件下的性能。
衍生相关工作
基于该数据集,研究者已经开发了多种谱系反卷积工具,如Freyja、Kallisto等,这些工具在病毒谱系分析中展现了强大的应用潜力。此外,该数据集还促进了相关领域的研究,如病毒变异监测、污水样本处理技术优化等。这些衍生工作不仅丰富了病毒学研究的方法库,也为公共卫生决策提供了科学依据。
数据集最近研究
最新研究方向
在废水处理领域,基于SARS-CoV-2病毒的谱系丰度估算研究正逐步成为前沿热点。该领域的最新研究方向集中在开发和验证高效的谱系解混工具,以准确解析废水样本中病毒的多样性和丰度。通过对比多种工具如Alcov、Freyja、Kallisto等,研究者们致力于标准化数据处理流程,确保结果的可比性和可靠性。这些工具的应用不仅提升了病毒谱系识别的精度,还为公共卫生决策提供了科学依据,特别是在监测和预测病毒变异趋势方面具有重要意义。
以上内容由遇见数据集搜集并总结生成



