RUBIC-datasets
收藏github2019-03-03 更新2024-05-31 收录
下载链接:
https://github.com/ewaldvandyk/RUBIC-datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含用于重现论文RUBIC识别通过检测DNA拷贝数断点来识别驱动基因结果的所有数据集,包括3个SNP6 TCGA数据集、1个TCGA全外显子测序数据集、1个低覆盖度全基因组测序数据集和五个模拟的SNP6数据集。
This dataset encompasses all the data necessary for reproducing the results of the RUBIC paper, which identifies driver genes by detecting DNA copy number breakpoints. It includes three SNP6 TCGA datasets, one TCGA whole-exome sequencing dataset, one low-coverage whole-genome sequencing dataset, and five simulated SNP6 datasets.
创建时间:
2016-05-16
原始信息汇总
数据集概述
数据集名称
RUBIC-datasets
数据集用途
用于重现论文"RUBIC identifies driver genes by detecting recurrent DNA copy number breaks"中的结果。
数据集内容
-
TCGA_SNP6
- genome.info.6.0.hg19:SNP6平台的标记文件。
- BRCA_sim:包含5000个模拟乳腺癌拷贝数概况的文件夹。
-
TCGA_WES
- markers.tsv:WES数据集的标记文件。
- samples.tsv:包含383个唯一TCGA条形码的列表。
-
lcWGS
- markers.tsv:lcWGS数据集的标记文件。
- BRCA:包含90个乳腺癌拷贝数概况的文件夹。
数据集比较
数据集用于比较RUBIC、GISTIC2和RAIG三种算法在以下数据上的表现:
- 3个SNP6 TCGA数据集
- 1个TCGA全外显子测序数据集
- 1个低覆盖度全基因组测序数据集
- 5个模拟SNP6数据集
搜集汇总
数据集介绍

构建方式
RUBIC-datasets的构建依托于多个不同类型的基因组数据,旨在为研究驱动基因识别提供实验复现的基准数据。该数据集涵盖了TCGA的SNP6、全外显子测序以及低覆盖全基因组测序数据,并包含模拟的SNP6数据。其构建过程中,首先整理了所需的输入文件,并根据不同平台的数据特性,如SNP6和WES,分别制作了相应的标记文件,确保数据的一致性和可用性。
特点
该数据集的特点在于其多样性和综合性。不仅包括了实际的肿瘤基因组数据,还包含了模拟数据,这为算法的性能评估提供了全面的测试场景。此外,数据集的组织结构清晰,按照不同数据类型和算法需求分类存储,极大地方便了研究人员的数据访问和处理。
使用方法
使用RUBIC-datasets时,研究人员可以根据自身需要选择相应的数据子集。数据集的文件夹结构明确指出了每种数据类型的存放位置和相关文件,如标记文件和样本列表。用户需根据所使用的算法要求,正确读取和解析这些文件,以进行驱动基因的识别和分析工作。
背景与挑战
背景概述
RUBIC-datasets是支撑研究论文《RUBIC identifies driver genes by detecting recurrent DNA copy number breaks》的数据集,该论文已提交至《Nature Communications》期刊。该数据集包含了多个不同类型和来源的基因组数据,用于复现研究中的结果。该数据集的创建旨在通过检测DNA拷贝数断裂来识别驱动基因,对于理解肿瘤发生机制以及癌症基因研究具有重要意义。该数据集由相关研究人员整理并提供,其研究背景源于对肿瘤基因组变异模式的分析,旨在推动癌症研究中关键基因的发现与验证。
当前挑战
该数据集在构建过程中面临了多方面的挑战,其中包括:整合来自不同平台和技术的基因组数据,如SNP6平台与全外显子测序数据,确保数据的一致性与可比性;处理大规模的模拟与真实基因组数据,确保算法效率与准确性;以及开发能够有效检测DNA拷贝数变异的方法,以识别出与癌症相关的驱动基因。在解决领域问题方面,该数据集需克服现有方法如GISTIC2和RAIG在处理复杂数据时的局限性,提升对驱动基因识别的精确度。
常用场景
经典使用场景
在探索癌症驱动基因的研究领域,RUBIC-datasets数据集提供了关键的实验数据,其经典的使用场景在于辅助研究者复现论文《RUBIC通过检测DNA拷贝数断裂来识别驱动基因》中的结果。该数据集包含了多种不同类型和来源的基因组数据,使得研究人员能够利用这些数据进行算法验证和比较分析,进而评估RUBIC算法在识别癌症驱动基因方面的有效性。
衍生相关工作
RUBIC-datasets数据集不仅为原始研究提供了实验基础,还催生了后续一系列相关研究工作。研究者基于该数据集开发了新的分析方法,对RUBIC算法进行了改进,并在不同的癌症类型中进行了验证,进一步拓展了数据集的应用范围,促进了生物信息学和基因组学领域的知识创新。
数据集最近研究
最新研究方向
在肿瘤基因组学领域,RUBIC-datasets作为关键资源,支撑了'RUBIC identifies driver genes by detecting recurrent DNA copy number breaks'这一研究。该研究致力于识别驱动基因,通过检测DNA拷贝数断裂的重复模式。该数据集整合了多种类型的基因组数据,包括TCGA的SNP6、全外显子测序及低覆盖全基因组测序数据,并辅以模拟的SNP6数据,为算法比较提供了全面的数据基础。前沿研究方向聚焦于利用此类数据集对RUBIC、GISTIC2和RAIG等算法进行效能评估,以发现肿瘤驱动基因,进而为癌症的精准治疗提供分子层面的见解。这一研究不仅推动了基因组学数据分析方法的进步,而且对于理解肿瘤发生发展的分子机制具有深远的影响和意义。
以上内容由遇见数据集搜集并总结生成



