five

The Cancer Genome Atlas (TCGA)|癌症研究数据集|基因组学数据集

收藏
portal.gdc.cancer.gov2024-10-23 收录
癌症研究
基因组学
下载链接:
https://portal.gdc.cancer.gov/
下载链接
链接失效反馈
资源简介:
TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的分子基础。
提供机构:
portal.gdc.cancer.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
The Cancer Genome Atlas (TCGA) 数据集的构建基于大规模的多维组学数据整合,涵盖了基因组、转录组、蛋白质组和表观遗传学等多个层面。通过高通量测序技术和生物信息学分析,TCGA项目对多种癌症类型进行了深入研究,收集了来自数千名患者的样本数据。这些数据经过严格的质控和标准化处理,确保了数据的高质量和一致性。
特点
TCGA 数据集以其全面性和深度著称,提供了丰富的癌症相关信息,包括基因突变、拷贝数变异、甲基化状态等。该数据集不仅涵盖了多种癌症类型,还包含了患者的临床信息,为癌症研究提供了宝贵的资源。此外,TCGA数据集的开放性和共享性,使得全球科研人员能够共同利用这些数据进行癌症机制和治疗策略的研究。
使用方法
TCGA 数据集的使用方法多样,科研人员可以通过TCGA官方网站或相关数据库平台访问和下载数据。在数据分析方面,TCGA数据集常用于基因表达谱分析、突变热点识别、生物标志物筛选等研究。此外,结合机器学习和人工智能技术,TCGA数据集还可用于构建预测模型,以辅助癌症诊断和预后评估。使用者需遵循数据共享协议,确保数据的合法和合理使用。
背景与挑战
背景概述
The Cancer Genome Atlas (TCGA) 是由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)于2006年发起的一项重大项目,旨在通过系统性地分析多种癌症类型的基因组变异,揭示癌症的分子基础。该项目汇聚了全球顶尖的癌症研究专家和机构,通过高通量测序技术,对数千个癌症样本进行了全面的基因组、转录组和表观基因组分析。TCGA的核心研究问题在于识别与癌症发生、发展和治疗反应相关的关键基因和分子机制,其成果对癌症精准医学的发展产生了深远影响,为个性化治疗策略的制定提供了宝贵的数据支持。
当前挑战
尽管TCGA数据集在癌症研究领域具有里程碑意义,但其构建和应用过程中仍面临诸多挑战。首先,数据的高维性和复杂性使得数据分析和解读变得异常困难,需要先进的生物信息学工具和算法。其次,样本的异质性和数据的标准化问题,导致不同实验室和研究团队之间的结果难以直接比较。此外,数据隐私和伦理问题也是TCGA项目必须面对的重要挑战,如何在保护患者隐私的前提下,最大化数据的使用价值,是当前亟待解决的问题。
发展历史
创建时间与更新
The Cancer Genome Atlas (TCGA) 数据集于2006年启动,旨在通过大规模基因组分析揭示癌症的复杂性。该数据集持续更新至2018年,期间收集了超过11,000个癌症样本的基因组、转录组和表观遗传数据。
重要里程碑
TCGA的里程碑事件包括2012年发布的首批研究成果,揭示了多种癌症类型的基因组变异模式,为癌症分类和治疗提供了新视角。2013年,TCGA数据被广泛应用于癌症基因组学的研究,推动了个性化医疗的发展。2015年,TCGA发布了全面的癌症基因组图谱,标志着癌症研究进入了一个新纪元。
当前发展情况
当前,TCGA数据集已成为癌症研究领域的基石,被全球科研机构广泛引用和应用。其数据不仅用于基础研究,还推动了临床应用,如癌症诊断、预后评估和治疗方案的制定。TCGA的影响力持续扩大,促进了多学科交叉研究,为未来的癌症治疗和预防策略提供了宝贵的数据支持。
发展历程
  • 美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)联合启动The Cancer Genome Atlas (TCGA)项目,旨在通过大规模基因组分析揭示癌症的分子基础。
    2006年
  • TCGA项目发布首个癌症基因组图谱,涵盖了乳腺癌和脑肿瘤的基因组数据。
    2008年
  • TCGA项目扩展至包括肺癌、结肠癌和卵巢癌在内的多种癌症类型,并发布了相应的基因组数据。
    2011年
  • TCGA项目发布首个全面的癌症基因组图谱,涵盖了20种不同类型的癌症,标志着该项目进入全面数据公开阶段。
    2013年
  • TCGA项目发布关于胰腺癌的详细基因组分析结果,进一步丰富了癌症基因组数据库。
    2015年
  • TCGA项目正式结束数据收集,并发布了最终的综合报告,总结了所有参与癌症类型的基因组特征和分子机制。
    2018年
  • TCGA数据集被广泛应用于癌症研究和临床实践,成为全球癌症基因组研究的重要资源。
    2020年
常用场景
经典使用场景
在癌症基因组学领域,The Cancer Genome Atlas (TCGA) 数据集被广泛用于研究不同癌症类型的基因组变异。通过整合多维度的基因组数据,包括基因表达、DNA甲基化、拷贝数变异和突变信息,TCGA为科学家提供了一个全面的平台,用以探索癌症的分子基础和潜在的治疗靶点。
解决学术问题
TCGA数据集解决了癌症研究中长期存在的多维度数据整合难题,使得研究人员能够系统性地分析基因组、转录组和表观遗传数据。这不仅揭示了癌症的复杂性,还为个性化医疗提供了理论基础。通过TCGA,科学家们能够识别出与特定癌症类型相关的关键基因和生物标志物,从而推动了癌症生物学和临床医学的进步。
衍生相关工作
基于TCGA数据集,许多后续研究工作得以展开,包括但不限于癌症亚型的分类、药物反应预测和基因网络分析。例如,TCGA数据被用于构建癌症基因表达谱,这些谱系为理解癌症的分子机制提供了重要线索。此外,TCGA数据还促进了多中心合作研究,推动了全球癌症研究的协同发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。

github 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录