Plasmid A
收藏github2024-11-05 更新2024-11-07 收录
下载链接:
https://github.com/TJU-QiGe/Soft-decision-data-readout-for-DNA-storage
下载链接
链接失效反馈官方服务:
资源简介:
包含泰戈尔诗歌的质粒DNA样本,长度为51,339 bp。
A plasmid DNA sample containing Tagore's poetry, with a length of 51,339 bp.
创建时间:
2024-10-31
原始信息汇总
数据集概述
项目简介
该项目旨在解决DNA数据存储中由纳米孔测序技术引入的插入和删除错误,以及数据恢复过程中序列组装技术的高复杂性问题。提出了一种实用的软决策数据读出方法,实现无组装序列重建、插入删除错误校正和超低覆盖率数据读出。
数据文件
表1. 研究中使用的质粒序列、水印序列和测序数据
| 文件名 | 存储位置 | 描述 |
|---|---|---|
| Dreams.txt | 当前目录 | 存储在质粒DNA中的文本文件,包含泰戈尔的诗歌,大小为2,025字节 |
| Genomefile_A.txt | 当前目录 | 编码的有效载荷序列,长度为40,500个核苷酸 |
| TJ0083169-1-plasmid-A.txt | 当前目录 | 合成的51,339 bp质粒序列,作为参考,包含有效载荷和质粒载体,称为“质粒A” |
| SequenceLengthALL_FILE001R025 | 当前目录 | 水印序列 |
| Plasmid-A-head.txt | 当前目录 | 质粒载体序列 |
| Plasmid-A-tail.txt | 当前目录 | 质粒载体序列 |
| Guppy_barcode02.zip | nanopore_duplex_fastq | 使用Guppy单链碱基调用软件生成的标准测序读取,压缩文件大小为93.8 MB,包含46,000条原始读取,平均长度为2,187 nt,平均测序错误率为0.052 |
| Dorado_barcode02_duplex.fastq | nanopore_duplex_fastq | 使用Dorado双链碱基调用软件生成的双链测序读取,文件大小为8.86 MB,包含1,156条双链原始读取,平均长度为3,982 nt,平均错误率为0.009 |
模块
表2. 用于从纳米孔测序读取中读出数据的程序及其输入/输出文件
| 程序 | 输入 | 输出 | 描述 |
|---|---|---|---|
| step1-run_watermark_alignment.sh | 1. Dorado_barcode02_duplex.fastq<br>2. SequenceLengthALL_FILE001R025<br>3. Plasmid-A-head.txt<br>4. Plasmid-A-tail.txt | Watermark_alignment_result_output.txt | 步骤1:运行“水印对齐”程序,以水印辅助对齐测序读取。 |
| step2-run_soft_decision_FBA.sh | 1. Watermark_alignment_result_output.txt<br>2. TJ0083169-1-plasmid-A.txt<br>3. SequenceLengthALL_FILE001R025<br>4. Watermark_sequence<br>5. Watermark_length<br>6. Ins. error rate<br>7. Sub. error rate<br>8. Del. error rate<br>9. Plasmid-A-head.txt<br>10. Plasmid-A-tail.txt | Indel_corrected_output.txt | 步骤2:运行“随机选择水印对齐结果”以随机选择一些测序读取进行错误校正;运行“fb_soft_indel_corrrect”程序以识别测序读取中的插入删除错误并将其转换为可解码的概率信息。 |
| step3-run_llr_merging.sh | 1. Indel_corrected_output.txt<br>2. Genomefile_A.txt<br>3. SequenceLengthALL_FILE001R025 | Soft_infor_consensus.txt | 步骤3:运行“llr_merging”程序,从多个读取中获取共识软信息。 |
| step4-run_decoding.sh | Soft_infor_consensus.txt | 1. Plasmid_A_corrected_bits.txt<br>2. Dreams.txt | 步骤4:运行“ldpc_r1_4_soft_decoder”程序完成软决策解码。 |
示例用法
1. 运行“step1-run_watermark_alignment.sh”
输入文件:
- Dorado_barcode02_duplex.fastq
- SequenceLengthALL_FILE001R025
- Plasmid-A-head.txt
- Plasmid-A-tail.txt
输出文件:
- Watermark_alignment_result_output.txt
2. 运行“step2-run_soft_decision_FBA.sh”
输入文件:
- Watermark_alignment_result_output.txt
- TJ0083169-1-plasmid-A.txt
- SequenceLengthALL_FILE001R025
- Watermark_sequence
- Watermark_length
- Ins. error rate
- Sub. error rate
- Del. error rate
- Plasmid-A-head.txt
- Plasmid-A-tail.txt
输出文件:
- Indel_corrected_output.txt
3. 运行“step3-run_llr_merging.sh”
输入文件:
- Indel_corrected_output.txt
- Genomefile_A.txt
- SequenceLengthALL_FILE001R025
输出文件:
- Soft_infor_consensus.txt
4. 运行“step4-run_decoding.sh”
输入文件:
- Soft_infor_consensus.txt
输出文件:
- Plasmid_A_corrected_bits.txt
- Dreams.txt
图表
提供了Figures 3b, c, d 和 5e, f的源数据和数据可视化程序,这些图表代表了所提出方法的性能。所有数据可视化代码均使用Python 3.9编写。
许可证
该项目基于MIT许可证分发。更多信息请参见LICENSE文件。
搜集汇总
数据集介绍

构建方式
在应对纳米孔测序技术在DNA数据存储中引入的插入和删除错误,以及数据恢复过程中序列组装技术的高复杂性问题时,研究团队提出了一种实用的软决策数据读出方法。该方法能够实现无组装序列重建、插入删除错误校正以及超低覆盖率数据读出。为验证该方法的可行性,研究团队使用第三代纳米孔测序仪尝试从一组大型DNA片段中恢复文件,其中包括两个约51k bp的质粒和一个254,886 bp的酵母人工染色体。在此背景下,构建了名为“Plasmid A”的数据集,该数据集包含一个51,339 bp的质粒DNA样本的参考序列,该质粒存储了泰戈尔的诗歌。此外,数据集还包括通过快速文库制备和纳米孔测序获得的测序读取,以及相关的数据读出文件和程序。
使用方法
使用Plasmid A数据集时,用户可以通过运行四个连续的shell脚本(step1-run_watermark_alignment.sh、step2-run_soft_decision_FBA.sh、step3-run_llr_merging.sh和step4-run_decoding.sh)来实现数据读出。每个脚本对应于数据读出流程中的一个核心步骤,从水印对齐到最终的软决策解码。通过这些脚本,用户可以逐步处理测序读取,校正插入删除错误,并最终恢复存储在质粒DNA中的数字文件。此外,数据集还提供了用于数据可视化的Python代码,帮助用户更好地理解和分析数据读出结果。
背景与挑战
背景概述
在DNA数据存储领域,纳米孔测序技术因其高错误率和序列组装复杂性而面临挑战。为解决这一问题,天津大学齐格团队于2021年提出了一种实用的软决策数据读出方法,旨在实现无组装序列重建、插入删除错误校正及超低覆盖率数据读出。该方法通过四个核心程序实现:水印对齐、软决策前向-后向算法、多读取软信息合并及软决策解码。Plasmid A数据集作为该研究的一部分,提供了包含泰戈尔诗歌的质粒DNA样本的参考序列及相应的测序读取数据,展示了该方法在实际应用中的可行性。
当前挑战
Plasmid A数据集在构建过程中面临多项挑战。首先,纳米孔测序技术引入的插入和删除错误需要高效的校正方法。其次,序列组装技术的复杂性要求开发无需组装的序列重建方法。此外,数据读出过程中需要处理多读取的软信息合并,以确保数据的准确性和完整性。最后,软决策解码的实现需克服高错误率带来的解码困难,确保数据恢复的高效性和可靠性。
常用场景
经典使用场景
在DNA数据存储领域,Plasmid A数据集的经典使用场景主要集中在通过纳米孔测序技术进行数据恢复和错误校正。该数据集提供了包含泰戈尔诗歌的质粒DNA样本的参考序列,以及通过快速文库制备和纳米孔测序获得的序列读取数据。研究者可以利用这些数据进行无组装序列重建、插入删除错误校正以及超低覆盖率数据读取,从而验证软决策数据读取方法的可行性和有效性。
解决学术问题
Plasmid A数据集解决了纳米孔测序技术在DNA数据存储中引入的插入和删除错误问题,以及数据恢复过程中序列组装技术的高复杂性问题。通过提供无组装序列重建和错误校正的方法,该数据集显著降低了数据恢复的难度和成本,为DNA数据存储技术的进一步研究和应用奠定了基础。
实际应用
在实际应用中,Plasmid A数据集可用于开发和优化DNA数据存储系统,特别是在需要高可靠性和低错误率的场景中。例如,生物信息学研究、基因组学数据存储和文化遗产数字化等领域,都可以利用该数据集进行技术验证和性能评估,从而推动DNA数据存储技术的商业化和产业化。
数据集最近研究
最新研究方向
在DNA数据存储领域,Plasmid A数据集的最新研究方向主要集中在通过纳米孔测序技术实现无组装序列重建和插入删除错误校正。研究者们提出了一种实用的软决策数据读出方法,该方法能够实现无组装序列重建、插入删除错误校正以及超低覆盖率数据读出。这一方法的核心在于通过水印对齐、软决策前向后向算法、多读取软信息合并以及软决策解码四个步骤,有效地解决了纳米孔测序技术引入的插入和删除错误问题,极大地简化了数据恢复过程的复杂性。此外,该研究还展示了通过第三代纳米孔测序器从大型DNA片段中检索文件的可行性,为DNA数据存储技术的实际应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



