five

CASTLE panel

收藏
github2025-02-13 更新2025-02-14 收录
下载链接:
https://github.com/CASTLE-Panel/castle
下载链接
链接失效反馈
官方服务:
资源简介:
CASTLE panel是一个多技术全长基因组测序的数据集,包括六个商业可用的肿瘤/正常细胞系对(HCC1954, HCC1937, H1437, H2009, Hs578T和HCC1395)。该数据集的基因组测序目前包括PacBio, Oxford Nanopore, Illumina和PoreC,在大多数情况下,都是从同一DNA提取或细胞系传递中测序的。该数据集还包括一组由一系列正交方法支持的可靠的体细胞结构变异(SV)和单核苷酸变异(SNV)的调用。

The CASTLE panel is a multi-technology full-length genome sequencing dataset comprising six commercially available matched tumor-normal cell line pairs: HCC1954, HCC1937, H1437, H2009, Hs578T, and HCC1395. Genome sequencing for this dataset currently encompasses PacBio, Oxford Nanopore, Illumina, and PoreC technologies, with most sequencing runs performed using DNA derived from the same extraction or cell line passage. This dataset also includes a set of high-confidence somatic structural variant (SV) and single-nucleotide variant (SNV) calls supported by a series of orthogonal experimental methods.
创建时间:
2025-02-11
原始信息汇总

CASTLE: 癌症标准长读长测序评估

CASTLE面板是一个多技术全基因组测序的商业可用肿瘤/正常细胞系对(HCC1954、HCC1937、H1437、H2009、Hs578T和HCC1395)。

  • 数据集组成:包含六个商业可用的肿瘤/正常细胞系对的全基因组测序数据。
  • 测序技术:包括PacBio、Oxford Nanopore、Illumina和PoreC,大多数情况下是从相同的DNA提取或细胞系传代测序。
  • 目的:用于激励新短读和长读工具在癌症基因组学中的基准测试和开发。

数据访问

  • 原始测序数据:可通过NCBI SRA BioProject PRJNA1086849Google云镜像 获取。
  • 甲基化调用:Nanopore和PacBio的甲基化调用也可通过Google镜像(或通过SRA in the Cloud服务)获取。

CASTLE面板核心数据

  • HCC1954/HCC1954BL - 乳腺癌 ductal carcinoma 及匹配的正常血液样本。
  • HCC1937/HCC1937BL - 乳腺癌 invasive ductal carcinoma 及匹配的正常血液样本。
  • H1437/BL1437 - 肺腺癌(NSCLC)及匹配的正常血液样本。
  • H2009/BL2009 - 肺腺癌及匹配的正常血液样本。
  • Hs578T/Hs578Bst - 乳腺癌及匹配的正常乳腺组织。
  • HCC1395/HCC1395BL - 乳腺癌 invasive ductal carcinoma 及匹配的正常血液样本。

额外COLO829数据

  • COLO829/COLO829BL 是一个用于癌症体细胞SV评估的流行基准数据集。

伦理声明

  • 使用商业细胞系进行测序,不需要伦理批准。

致谢

  • 数据由多个机构和团队共同生成和分析。

引用

结构变异调用和基准测试

  • 使用多个方法和测序技术生成的置信调用集合。

单核苷酸变异调用

  • 即将添加!

联系方式

  • 请在Github仓库中提出关于此数据集的问题。
搜集汇总
数据集介绍
main_image_url
构建方式
CASTLE panel是由六个商业可用的肿瘤/正常细胞系对(HCC1954、HCC1937、H1437、H2009、Hs578T和HCC1395)的全基因组测序数据构成。该数据集采用了PacBio、Oxford Nanopore、Illumina和PoreC等多种测序技术,大多数情况下是对同一DNA提取或细胞系传代进行测序。构建该数据集的目的是为了推动新短读段和长读段工具在癌症基因组学中的基准测试和开发。
特点
CASTLE panel的特点在于它包含了多种测序技术生成的数据,这为评估和开发新的短读段和长读段工具提供了丰富的资源。数据集还包含了一组由不同方法支持的置信癌变结构性变异(SV)和单核苷酸变异(SNV)的调用。此外,它还提供了甲基化调用数据,并最近增加了额外的超长ONT和PoreC数据以改进染色体水平的相性和从头组装。
使用方法
用户可以通过NCBI SRA BioProject和Google Cloud镜像访问CASTLE panel的原始测序数据。使用前,用户需要了解各样本的测序技术、数据大小、Reads N50等信息,并根据需要选择合适的数据进行处理。数据集的使用包括了对置信变异调用的分析以及对新工具的基准测试和开发。详细的预处理步骤和使用说明可在相关工具的文档中找到。
背景与挑战
背景概述
CASTLE panel数据集是一项由多个研究机构合作创建的多技术全长基因组测序项目,旨在推动癌症基因组学领域的新型短读和长读工具的基准测试与开发。该数据集包含了六个商业可获得性的肿瘤/正常细胞系对(HCC1954、HCC1937、H1437、H2009、Hs578T和HCC1395)的全基因组测序,使用了PacBio、Oxford Nanopore、Illumina和PoreC等多种测序技术。CASTLE panel的构建旨在为癌症基因组学研究提供一套可靠的标准长读测序数据,并包含了一组由多种方法支持的确信的体细胞结构变异(SV)和单核苷酸变异(SNV)调用。该数据集的创建时间为2024年,主要研究人员包括Kolmogorov实验室、Paten和Miga实验室、Farooqi实验室、DeepVariant团队、Oxford Nanopore Technologies的应用团队以及Robine和Narzisi实验室。CASTLE panel数据集对癌症基因组学研究领域产生了重要影响,为开发新的检测体细胞变异的方法提供了宝贵资源。
当前挑战
CASTLE panel数据集在构建过程中面临的主要挑战包括:1)多种测序技术数据的整合与比较,这要求高度的技术兼容性和精确的数据处理流程;2)体细胞结构变异和单核苷酸变异的准确识别与验证,由于缺乏金标准,这依赖于复杂的方法组合和结果一致性评估;3)数据集的规模和复杂性要求高效的数据管理和存储解决方案,以及为研究人员提供易于访问和使用的数据格式。在所解决的领域问题方面,CASTLE panel数据集的挑战包括:如何利用长读测序技术提高染色体水平相位的精确性和新的组装策略,以及如何在多种癌症类型中准确识别体细胞变异,这对于精确癌症治疗至关重要。
常用场景
经典使用场景
CASTLE panel数据集是一组采用多种技术进行全基因组测序的商业肿瘤/正常细胞系对。该数据集的经典使用场景在于为癌症基因组学研究提供基准,促进新短读段和长读段工具的开发与评估。
解决学术问题
CASTLE panel数据集解决了癌症基因组研究中短读段和长读段工具的比较和优化问题,为准确识别和评估体细胞变异提供了可靠的数据资源,这对于发展精准癌症治疗至关重要。
衍生相关工作
CASTLE panel数据集衍生出了多项相关工作,如Severus和nanomonsv等体细胞结构变异 caller 的开发与评估,这些工具和方法的发展进一步推动了癌症基因组学研究的深入。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作