five

EDLB, Gen-FS

收藏
github2024-04-17 更新2024-05-31 收录
下载链接:
https://github.com/ncezid-biome/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
EDLB数据集包括从CDC的Enteric Diseases Laboratory Branch精选的数据,用于快速组装细菌基因组和进行AMR结果确认等。Gen-FS数据集涉及食品和饲料安全相关的基因组数据,用于疫情分析。

The EDLB dataset comprises meticulously curated data from the CDC's Enteric Diseases Laboratory Branch, designed for the rapid assembly of bacterial genomes and the confirmation of AMR (Antimicrobial Resistance) outcomes. The Gen-FS dataset encompasses genomic data pertinent to food and feed safety, utilized for the analysis of epidemic outbreaks.
创建时间:
2023-03-12
原始信息汇总

数据集概述

目的

  • 基准数据集:旨在收集一组数据,用于比较分析结果,包括实际组装或如MLST的分析。应用场景包括研讨会和培训、熟练度测试、认证、生物信息学工作流程开发以及不同生物信息学管道之间的基准比较。
  • 玩具数据集:旨在收集一组快速组装的数据,主要用于快速测试新的生物信息学工作流程、教授新人物理组装以及在研讨会环境中教授生物信息学工作流程。

数据集详情

EDLB
数据集编号 名称 描述 预期用途 文件名 参考文献
1 Staphylococcus aureus 混合Nanopore R9.4.1和Illumina近参考质量组装的Staphylococcus aureus全基因组,来自慢性鼻窦炎患者的鼻拭子及其质粒。 快速组装具有抗菌药物耐药性的细菌基因组 toy-bacteria-saureus.tsv PRJNA914892
2 Salmonella AMR 一组由ONT测序的_Salmonella enterica_基因组,来自三篇不同的出版物。 组装后确认AMR结果 Salmonella-AMR.tsv PMID36036604, PMID35727013, PMID35416692
3 Campylobacter - PulseNet 一组Campylobacter疫情,来自BioNumerics的等位基因呼叫。 测试全基因组MLST呼叫器;疫情聚类 campylobacter-pulsenet.tsv PMID37133905
4 Metagenomics - two outbreaks 一组属于美国阿拉巴马州或科罗拉多州疫情爆发的元基因组读数。 测试管道在元基因组疫情数据集上的聚类或病原体检测 coal-metagenomics.tsv PMID27881416
Gen-FS
数据集编号 名称 描述 预期用途 文件名 参考文献
1 Stone Fruit Food recall 由L. monocytogenes引起的食物召回疫情 疫情分析 Listeria_monocytogenes_1408MLGX6-3WGS.tsv PMID27694232
2 Spicy Tuna outbreak 由S. enterica引起的疫情 疫情分析 Salmonella_enterica_1203NYJAP-1.tsv PMID25995194
3 Simulated outbreak 模拟的S. enterica疫情 疫情分析 Salmonella_enterica_1203NYJAP-1.simulated.tsv Timme et al 2017
4 Raw Milk outbreak C. jejuni疫情 疫情分析 Campylobacter_jejuni_0810PADBR-1.tsv http://www.outbreakdatabase.com/details/hendricks-farm-and-dairy-raw-milk-2008
5 Sprouts Outbreak E. coli疫情 疫情分析 Escherichia_coli_1405WAEXK-1.tsv http://www.cdc.gov/ecoli/2014/o121-05-14/index.html
SARS-CoV-2 datasets
数据集编号 名称 描述 预期用途 文件名 引物集 参考文献
1 Boston Outbreak 一组63个样本,来自真实的疫情,三次引入,Illumina平台,元基因组方法 理解真实疫情环境中病毒传播的特征,元基因组测序 sars-cov-2-SNF-A.tsv NA Lemieux et al.
2 CoronaHiT rapid 一组39个样本,通过不同的湿实验室方法准备,并在两个平台(Illumina vs MinIon)上测序,MinIon运行18小时,基于扩增子的方法 验证生物信息学管道在同一基因组的不同平台上几乎找不到差异,疫情设置 sars-cov-2-coronahit-rapid.tsv ARTIC_V3 Baker et al.
3 CoronaHiT routine 一组69个样本,通过不同的湿实验室方法准备,并在两个平台(Illumina vs MinIon)上测序,MinIon运行30小时,基于扩增子的方法 验证生物信息学管道在同一基因组的不同平台上几乎找不到差异,常规监测 sars-cov-2-coronahit-routine-a.tsv, sars-cov-2-coronahit-routine-b.tsv ARTIC_V3 Baker et al.
4 VOI/VOC lineages 一组16个样本,来自截至2021年6月15日CDC定义的10个代表性VOI/VOC谱系,Illumina平台,基于扩增子的方法 基准测试特别针对VOI/VOC的谱系呼叫生物信息学管道,生物信息学管道验证 sars-cov-2-voivoc.tsv ARTIC_V3 Xiaoli et al
5 Non-VOI/VOC lineages 一组39个样本,来自截至2021年5月30日的代表性非VOI/VOC谱系,Illumina平台,基于扩增子的方法 基准测试不特定于VOI/VOC的谱系呼叫管道,生物信息学管道验证 sars-cov-2-nonvoivoc.tsv ARTIC_V3: 34, ARTIC_V1: 2, RandomPrimer-SSIV_NexteraXT: 2, NA: 1 Xiaoli et al
6 Failed QC 一组24个样本,未能通过基本QC指标,覆盖8种可能的失败场景,Illumina平台,基于扩增子的方法 作为控制测试生物信息学质量控制阈值 sars-cov-2-failedQC.tsv ARTIC_V3: 5, CDC in house multiplex PCR primers (Paden et al.): 19 Xiaoli et al
GMI
数据集编号 名称 描述 预期用途 文件名 参考文献
1 Ahrenfeldt E. coli 一个进化实验 系统发育基因组管道验证 e.coli-Ahrenfeldt-dataset.tsv PMC5217230
2 Legionella outbreak 1976年费城军团病疫情 疫情数据集 PA_76_benchMarkInfo.tsv DOI/10.1371

以上数据集提供了多种用途,包括快速测试新的生物信息学工作流程、教授新人物理组装以及在研讨会环境中教授生物信息学工作流程等。每个数据集都有其特定的预期用途和参考文献,以便用户根据需要选择合适的数据集进行研究和分析。

搜集汇总
数据集介绍
main_image_url
构建方式
EDLB和Gen-FS数据集的构建方式主要基于从CDC的Enteric Diseases Laboratory Branch(EDLB)以及其他合作项目中收集的样本数据。这些数据集包括了多种病原体的全基因组测序数据,如Staphylococcus aureus、Salmonella enterica和Campylobacter等。数据集的构建过程涉及从不同平台(如Nanopore和Illumina)获取的测序数据,并通过生物信息学工具进行组装和质量控制,以确保数据的准确性和一致性。此外,部分数据集还包含了从已发表文献中提取的参考数据,以支持后续的分析和比较研究。
特点
EDLB和Gen-FS数据集的主要特点在于其多样性和实用性。这些数据集涵盖了多种病原体的全基因组数据,适用于从快速组装到抗菌药物耐药性(AMR)分析等多种应用场景。此外,数据集的设计考虑了教育和培训的需求,提供了适合初学者使用的简化数据集(toy datasets),以及用于基准测试和流程开发的高质量数据集(benchmark datasets)。这些数据集的多样性使其能够支持从基础研究到实际应用的广泛需求。
使用方法
使用EDLB和Gen-FS数据集时,用户可以通过提供的tsv文件格式快速访问和下载所需的数据。数据集的使用方法灵活,支持多种生物信息学工作流程的测试和验证,如全基因组多重序列比对(MLST)、爆发分析和抗菌药物耐药性检测等。用户可以根据数据集的‘intendedUse’字段选择合适的分析方法,并结合相关的生物信息学工具进行深入研究。此外,数据集的下载和安装过程简单,用户只需按照提供的安装指南进行操作即可。
背景与挑战
背景概述
EDLB和Gen-FS数据集由美国疾病控制与预防中心(CDC)的Enteric Diseases Laboratory Branch(EDLB)和Genomics for Food and Feed Safety(Gen-FS)项目合作创建。这些数据集旨在为生物信息学工作流程的开发、基准测试和培训提供资源。EDLB数据集主要包含从慢性鼻窦炎患者中分离的耐药性金黄色葡萄球菌、沙门氏菌、弯曲杆菌等病原体的基因组数据,用于快速基因组装配和抗菌药物耐药性(AMR)分析。Gen-FS数据集则涉及食品和饲料安全相关的病原体爆发分析,如李斯特菌和沙门氏菌的爆发事件。这些数据集的创建为生物信息学领域的研究提供了重要的基准数据,支持了病原体监测和爆发分析的研究工作。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,数据集的多样性和复杂性要求高效的基因组装配和分析工具,以确保结果的准确性和可重复性。其次,病原体爆发分析中的挑战包括如何快速识别和追踪病原体的传播路径,尤其是在多重耐药性病原体的情况下。此外,数据集的构建过程中需要处理来自不同平台和方法的基因组数据,确保数据的一致性和质量。最后,数据集的应用需要开发和验证新的生物信息学工作流程,以应对不断变化的病原体监测需求。
常用场景
经典使用场景
EDLB和Gen-FS数据集的经典使用场景主要集中在生物信息学工作流的开发与验证。这些数据集为研究人员提供了标准化的基准数据,用于评估和比较不同的生物信息学工具和流程。例如,EDLB数据集中的Salmonella AMR数据集可用于抗菌药物耐药性(AMR)结果的组装和验证,而Gen-FS数据集中的Stone Fruit Food recall数据集则用于爆发分析。这些数据集的快速组装特性使其成为培训和研讨会的理想选择,尤其是在快速测试新的生物信息学工作流或教授ONT组装技术时。
实际应用
在实际应用中,EDLB和Gen-FS数据集广泛用于公共卫生监测和食品安全领域。例如,EDLB数据集中的Campylobacter - PulseNet数据集可用于测试全基因组MLST(多位点序列分型)调用器,帮助识别和追踪食源性疾病爆发。Gen-FS数据集中的Raw Milk outbreak数据集则用于分析C. jejuni爆发,支持食品安全事件的调查和响应。这些数据集的应用不仅提高了生物信息学工具的准确性和可靠性,还为公共卫生决策提供了科学依据。
衍生相关工作
基于EDLB和Gen-FS数据集,衍生了许多经典的工作和研究。例如,Salmonella AMR数据集的应用推动了抗菌药物耐药性检测工具的开发和优化。Gen-FS数据集中的爆发分析数据集则促进了爆发检测和溯源算法的改进。此外,这些数据集还为多个生物信息学工作流的基准测试提供了基础,推动了生物信息学领域的标准化和规范化。通过这些衍生工作,研究人员能够更好地理解和应用生物信息学技术,从而在公共卫生和食品安全领域取得更多突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作