PacBio HG002 High-Fidelity QV20 10 kbp CCS, PacBio HG002 High-Fidelity QV20 15 kbp CCS, PacBio HG002 10-50 kbp Subreads

github2022-08-28 更新2024-05-31 收录

下载链接：

https://github.com/NCBI-Hackathons/Assessing-SVs-in-improved-pacbio-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集包括PacBio HG002高保真QV20 10 kbp CCS、PacBio HG002高保真QV20 15 kbp CCS和PacBio HG002 10-50 kbp Subreads，均具有约30-70倍的覆盖率，用于研究结构变异。

本数据集涵盖PacBio HG002高保真QV20 10 kbp CCS、PacBio HG002高保真QV20 15 kbp CCS及PacBio HG002 10-50 kbp Subreads，其覆盖深度约为30-70倍，旨在用于结构变异的研究之中。其中，CCS代表连续一致性序列，Subreads则指特定长度的连续序列片段，均为现代基因组学研究之关键数据类型。

创建时间：

2018-10-30

原始信息汇总

数据集概述

数据集目的

评估深度、读取质量和算法对结构变异（SV）调用的贡献。

结构变异定义

结构变异（SVs）包括大于50 bp的插入和删除、倒位和易位，占人类基因组变异总碱基对的大部分，并与基因组疾病有关。

数据集内容

PacBio HG002 High-Fidelity QV20 10 kbp CCS, ~30-fold coverage
- 数据集链接：ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/PacBio_CCS_10kb/
PacBio HG002 High-Fidelity QV20 15 kbp CCS, ~30-fold coverage
- 数据集链接：ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/PacBio_CCS_15kb/
PacBio HG002 10-50 kbp Subreads, ~70-fold coverage
- 数据集链接：ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/PacBio_MtSinai_NIST/PacBio_fasta/

实验条件

深度调整：从~30倍开始，下调至20倍、10倍、5倍覆盖度。
对齐工具设置：
- NGMLR：使用预设的pacbio参数。
- minimap2：特定参数设置，包括线程数、对齐选项等。
变异调用工具设置：
- Sniffles：特定参数设置，包括跳过参数估计。
- pbsv：特定参数设置，包括发现和调用步骤。

工作流程

数据处理流程图展示了从数据集到最终SV调用的完整步骤。

搜集汇总

数据集介绍

构建方式

该数据集构建于太平洋生物科学公司发布的高保真长读长测序数据基础之上，涵盖了10 kbp和15 kbp两种插入片段长度的高保真测序数据，以及10-50 kbp的原始子读数据。通过对比不同测序深度（30倍、20倍、10倍、5倍）、不同比对工具（minimap2和NGM-LR）以及不同变异检测工具（Sniffles和pbsv）的表现，全面评估了结构变异检测的准确性。数据集的构建旨在探索高保真测序数据在结构变异检测中的潜力。

特点

该数据集的特点在于其高保真测序数据的引入，其平均插入片段长度分别为10 kbp和15 kbp，且测序质量高于99%。与传统的PacBio子读数据相比，高保真数据具有不同的错误模式，这为结构变异检测提供了新的视角。此外，数据集涵盖了广泛的测序深度和多种分析工具的组合，为研究结构变异检测的算法性能提供了丰富的实验条件。

使用方法

该数据集的使用方法包括通过Nextflow工作流运行分析流程，用户可以根据本地环境修改run_pipeline.sh脚本以启动分析。为了确保结果的可重复性，建议使用conda创建一个名为assessv的环境，并通过conda_environment.txt文件安装所需的依赖。用户可以通过调整测序深度、比对工具和变异检测工具的参数，探索不同条件下结构变异检测的效果。

背景与挑战

背景概述

PacBio HG002高保真长读数据集由Pacific Biosciences发布，旨在评估高保真长读测序技术在结构变异（SV）检测中的性能。结构变异是指长度超过50 bp的插入、缺失、倒位和易位等基因组变异，这些变异在人类基因组中占据了大量的碱基对变化，并与多种遗传疾病密切相关。该数据集包含10 kbp和15 kbp的高保真长读数据，以及10-50 kbp的原始子读数据，覆盖度分别为30倍和70倍。通过比较不同错误模式、读长、比对工具和变异检测算法，研究人员能够深入探讨高保真长读在SV检测中的表现及其对基因组学研究的影响。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，高保真长读数据的错误模式与原始子读数据不同，这可能导致在SV检测中的性能差异，如何准确评估这些差异是一个关键问题。其次，数据集的覆盖度从30倍逐步降低到5倍，如何在低覆盖度下保持SV检测的准确性是另一个挑战。此外，不同的比对工具（如minimap2和NGM-LR）和变异检测算法（如Sniffles和pbsv）在SV检测中的表现可能存在显著差异，如何选择最优的工具组合以最大化检测效果也是一个复杂的问题。最后，数据集的复杂性和规模对计算资源和数据处理能力提出了较高要求，如何高效地处理和分析这些数据是实际应用中的一大挑战。

常用场景

经典使用场景

在基因组结构变异（SV）检测领域，PacBio HG002高保真长读长数据集被广泛应用于评估不同测序深度、读长质量以及算法对SV检测性能的影响。通过比较高保真读长与原始子读长在不同参数设置下的表现，研究者能够深入理解这些因素对SV检测准确性的贡献。

实际应用

在实际应用中，PacBio HG002数据集为基因组医学研究提供了重要支持。通过高保真长读长数据，研究者能够更精确地识别与疾病相关的结构变异，特别是在癌症基因组学和遗传病研究中，这些数据为个性化医疗和精准诊断提供了关键依据。

衍生相关工作

基于PacBio HG002数据集，衍生了一系列经典研究工作，例如开发新的SV检测算法和优化现有工具的性能。这些工作不仅提升了SV检测的准确性，还推动了长读长测序技术在基因组学领域的广泛应用，为后续研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成