Plasmid A

github2024-11-05 更新2024-11-07 收录

下载链接：

https://github.com/TJU-QiGe/Soft-decision-data-readout-for-DNA-storage

下载链接

链接失效反馈

官方服务：

资源简介：

包含泰戈尔诗歌的质粒DNA样本，长度为51,339 bp。

A plasmid DNA sample containing Tagore's poetry, with a length of 51,339 bp.

创建时间：

2024-10-31

原始信息汇总

数据集概述

项目简介

该项目旨在解决DNA数据存储中由纳米孔测序技术引入的插入和删除错误，以及数据恢复过程中序列组装技术的高复杂性问题。提出了一种实用的软决策数据读出方法，实现无组装序列重建、插入删除错误校正和超低覆盖率数据读出。

数据文件

表1. 研究中使用的质粒序列、水印序列和测序数据

文件名	存储位置	描述
Dreams.txt	当前目录	存储在质粒DNA中的文本文件，包含泰戈尔的诗歌，大小为2,025字节
Genomefile_A.txt	当前目录	编码的有效载荷序列，长度为40,500个核苷酸
TJ0083169-1-plasmid-A.txt	当前目录	合成的51,339 bp质粒序列，作为参考，包含有效载荷和质粒载体，称为“质粒A”
SequenceLengthALL_FILE001R025	当前目录	水印序列
Plasmid-A-head.txt	当前目录	质粒载体序列
Plasmid-A-tail.txt	当前目录	质粒载体序列
Guppy_barcode02.zip	nanopore_duplex_fastq	使用Guppy单链碱基调用软件生成的标准测序读取，压缩文件大小为93.8 MB，包含46,000条原始读取，平均长度为2,187 nt，平均测序错误率为0.052
Dorado_barcode02_duplex.fastq	nanopore_duplex_fastq	使用Dorado双链碱基调用软件生成的双链测序读取，文件大小为8.86 MB，包含1,156条双链原始读取，平均长度为3,982 nt，平均错误率为0.009

模块

表2. 用于从纳米孔测序读取中读出数据的程序及其输入/输出文件

程序	输入	输出	描述
step1-run_watermark_alignment.sh	1. Dorado_barcode02_duplex.fastq<br>2. SequenceLengthALL_FILE001R025<br>3. Plasmid-A-head.txt<br>4. Plasmid-A-tail.txt	Watermark_alignment_result_output.txt	步骤1：运行“水印对齐”程序，以水印辅助对齐测序读取。
step2-run_soft_decision_FBA.sh	1. Watermark_alignment_result_output.txt<br>2. TJ0083169-1-plasmid-A.txt<br>3. SequenceLengthALL_FILE001R025<br>4. Watermark_sequence<br>5. Watermark_length<br>6. Ins. error rate<br>7. Sub. error rate<br>8. Del. error rate<br>9. Plasmid-A-head.txt<br>10. Plasmid-A-tail.txt	Indel_corrected_output.txt	步骤2：运行“随机选择水印对齐结果”以随机选择一些测序读取进行错误校正；运行“fb_soft_indel_corrrect”程序以识别测序读取中的插入删除错误并将其转换为可解码的概率信息。
step3-run_llr_merging.sh	1. Indel_corrected_output.txt<br>2. Genomefile_A.txt<br>3. SequenceLengthALL_FILE001R025	Soft_infor_consensus.txt	步骤3：运行“llr_merging”程序，从多个读取中获取共识软信息。
step4-run_decoding.sh	Soft_infor_consensus.txt	1. Plasmid_A_corrected_bits.txt<br>2. Dreams.txt	步骤4：运行“ldpc_r1_4_soft_decoder”程序完成软决策解码。

示例用法

1. 运行“step1-run_watermark_alignment.sh”

输入文件：

Dorado_barcode02_duplex.fastq
SequenceLengthALL_FILE001R025
Plasmid-A-head.txt
Plasmid-A-tail.txt

输出文件：

Watermark_alignment_result_output.txt

2. 运行“step2-run_soft_decision_FBA.sh”

输入文件：

Watermark_alignment_result_output.txt
TJ0083169-1-plasmid-A.txt
SequenceLengthALL_FILE001R025
Watermark_sequence
Watermark_length
Ins. error rate
Sub. error rate
Del. error rate
Plasmid-A-head.txt
Plasmid-A-tail.txt

输出文件：

Indel_corrected_output.txt

3. 运行“step3-run_llr_merging.sh”

输入文件：

Indel_corrected_output.txt
Genomefile_A.txt
SequenceLengthALL_FILE001R025

输出文件：

Soft_infor_consensus.txt

4. 运行“step4-run_decoding.sh”

输入文件：

Soft_infor_consensus.txt

输出文件：

Plasmid_A_corrected_bits.txt
Dreams.txt

图表

提供了Figures 3b, c, d 和 5e, f的源数据和数据可视化程序，这些图表代表了所提出方法的性能。所有数据可视化代码均使用Python 3.9编写。

许可证

该项目基于MIT许可证分发。更多信息请参见LICENSE文件。

搜集汇总

数据集介绍

构建方式

在应对纳米孔测序技术在DNA数据存储中引入的插入和删除错误，以及数据恢复过程中序列组装技术的高复杂性问题时，研究团队提出了一种实用的软决策数据读出方法。该方法能够实现无组装序列重建、插入删除错误校正以及超低覆盖率数据读出。为验证该方法的可行性，研究团队使用第三代纳米孔测序仪尝试从一组大型DNA片段中恢复文件，其中包括两个约51k bp的质粒和一个254,886 bp的酵母人工染色体。在此背景下，构建了名为“Plasmid A”的数据集，该数据集包含一个51,339 bp的质粒DNA样本的参考序列，该质粒存储了泰戈尔的诗歌。此外，数据集还包括通过快速文库制备和纳米孔测序获得的测序读取，以及相关的数据读出文件和程序。

使用方法

使用Plasmid A数据集时，用户可以通过运行四个连续的shell脚本（step1-run_watermark_alignment.sh、step2-run_soft_decision_FBA.sh、step3-run_llr_merging.sh和step4-run_decoding.sh）来实现数据读出。每个脚本对应于数据读出流程中的一个核心步骤，从水印对齐到最终的软决策解码。通过这些脚本，用户可以逐步处理测序读取，校正插入删除错误，并最终恢复存储在质粒DNA中的数字文件。此外，数据集还提供了用于数据可视化的Python代码，帮助用户更好地理解和分析数据读出结果。

背景与挑战

背景概述

在DNA数据存储领域，纳米孔测序技术因其高错误率和序列组装复杂性而面临挑战。为解决这一问题，天津大学齐格团队于2021年提出了一种实用的软决策数据读出方法，旨在实现无组装序列重建、插入删除错误校正及超低覆盖率数据读出。该方法通过四个核心程序实现：水印对齐、软决策前向-后向算法、多读取软信息合并及软决策解码。Plasmid A数据集作为该研究的一部分，提供了包含泰戈尔诗歌的质粒DNA样本的参考序列及相应的测序读取数据，展示了该方法在实际应用中的可行性。

当前挑战

Plasmid A数据集在构建过程中面临多项挑战。首先，纳米孔测序技术引入的插入和删除错误需要高效的校正方法。其次，序列组装技术的复杂性要求开发无需组装的序列重建方法。此外，数据读出过程中需要处理多读取的软信息合并，以确保数据的准确性和完整性。最后，软决策解码的实现需克服高错误率带来的解码困难，确保数据恢复的高效性和可靠性。

常用场景

经典使用场景

在DNA数据存储领域，Plasmid A数据集的经典使用场景主要集中在通过纳米孔测序技术进行数据恢复和错误校正。该数据集提供了包含泰戈尔诗歌的质粒DNA样本的参考序列，以及通过快速文库制备和纳米孔测序获得的序列读取数据。研究者可以利用这些数据进行无组装序列重建、插入删除错误校正以及超低覆盖率数据读取，从而验证软决策数据读取方法的可行性和有效性。

解决学术问题

Plasmid A数据集解决了纳米孔测序技术在DNA数据存储中引入的插入和删除错误问题，以及数据恢复过程中序列组装技术的高复杂性问题。通过提供无组装序列重建和错误校正的方法，该数据集显著降低了数据恢复的难度和成本，为DNA数据存储技术的进一步研究和应用奠定了基础。

实际应用

在实际应用中，Plasmid A数据集可用于开发和优化DNA数据存储系统，特别是在需要高可靠性和低错误率的场景中。例如，生物信息学研究、基因组学数据存储和文化遗产数字化等领域，都可以利用该数据集进行技术验证和性能评估，从而推动DNA数据存储技术的商业化和产业化。

数据集最近研究