TCGA|癌症基因组数据集|多组学数据数据集

DataCite Commons2024-02-04 更新2024-08-19 收录

癌症基因组

多组学数据

下载链接：

https://figshare.com/articles/dataset/TCGA/25138580

下载链接

链接失效反馈

资源简介：

The feature matrix and PSN matrix for TCGA dataset.For paper "DeepMoIC: Multi-Omics Data Integration via Deep Graph Convolutional Networks for Cancer Subtype Classification".

提供机构：

figshare

创建时间：

2024-02-03

AI搜集汇总

数据集介绍

构建方式

TCGA（The Cancer Genome Atlas）数据集的构建基于大规模的多组学数据整合，涵盖了基因组、转录组、蛋白质组和表观遗传学等多个层面。通过高通量测序技术和生物信息学分析，研究人员对多种癌症类型进行了深入的基因组学研究，旨在揭示癌症的分子机制和潜在的治疗靶点。数据集的构建过程严格遵循国际标准，确保数据的准确性和可靠性。

使用方法

TCGA数据集的使用方法多样，研究人员可以通过TCGA官方网站或相关数据库平台访问和下载数据。在使用前，建议对数据进行预处理和质量控制，以确保分析结果的准确性。常见的应用包括基因表达分析、突变谱分析、生存分析等。此外，TCGA数据集还可以与其他公共数据集结合，进行跨癌症类型的比较研究，从而揭示更广泛的生物学规律和潜在的治疗策略。

背景与挑战

背景概述

TCGA（The Cancer Genome Atlas）数据集是由美国国家癌症研究所（NCI）和美国国家人类基因组研究所（NHGRI）于2006年启动的一项大型癌症基因组研究项目。该项目旨在通过整合多维度的基因组、转录组和表观遗传数据，全面解析多种癌症的分子特征。TCGA数据集的核心研究问题包括癌症基因突变、基因表达异常、表观遗传变化等，其对癌症研究领域的影响深远，为个性化医疗和精准治疗提供了重要的数据支持。

当前挑战

TCGA数据集在构建过程中面临多重挑战。首先，数据的高维度和复杂性使得数据整合和分析变得极为困难。其次，不同癌症类型的异质性增加了数据标准化和一致性处理的难度。此外，数据隐私和伦理问题也是TCGA项目必须面对的重要挑战。在应用层面，如何从海量数据中提取有意义的生物标志物和治疗靶点，以及如何将这些发现转化为临床实践，仍是当前研究的重点和难点。

发展历史

创建时间与更新

TCGA（The Cancer Genome Atlas）数据集创建于2006年，由美国国家癌症研究所（NCI）和美国国家人类基因组研究所（NHGRI）联合发起。该数据集的更新持续至2018年，期间不断整合和发布新的癌症基因组数据。

重要里程碑

TCGA的创建标志着癌症研究进入了一个全新的基因组时代。其首次大规模整合了多种癌症类型的基因组、转录组和表观基因组数据，为癌症的分子分类和个性化治疗提供了基础。2013年，TCGA发布了首个全面的癌症基因组图谱，涵盖了33种癌症类型，这一里程碑事件极大地推动了癌症研究的进展。

当前发展情况

当前，TCGA数据集已成为全球癌症研究的重要资源，被广泛应用于癌症基因组学、生物信息学和临床医学研究。其数据不仅支持了多项重要的癌症研究成果，还促进了多学科交叉研究的发展。此外，TCGA的成功经验也启发了其他国家开展类似的基因组研究项目，进一步推动了全球癌症研究的协作与创新。

发展历程

TCGA项目正式启动，旨在通过大规模基因组分析研究癌症。
2006年
TCGA发布了首个癌症基因组图谱，涵盖多种癌症类型的基因组数据。
2010年
TCGA数据首次应用于临床研究，揭示了多种癌症的分子特征。
2012年
TCGA发布了全面的癌症基因组图谱，包括33种癌症类型的数据。
2014年
TCGA数据集被广泛应用于癌症研究和个性化医疗，推动了精准医学的发展。
2018年

常用场景

经典使用场景

在癌症研究领域，TCGA（The Cancer Genome Atlas）数据集被广泛用于分析不同癌症类型的基因组变异。通过整合多维度的基因组数据，包括基因表达、DNA甲基化、拷贝数变异和突变信息，TCGA为研究人员提供了一个全面的视角来理解癌症的分子基础。这些数据不仅有助于识别癌症驱动基因，还能揭示不同癌症亚型的分子特征，从而为个性化治疗策略的开发提供依据。

解决学术问题

TCGA数据集在解决癌症研究中的多个学术问题方面发挥了关键作用。首先，它帮助科学家识别了多种癌症类型的关键驱动基因，这些基因的突变与癌症的发生和发展密切相关。其次，TCGA数据集促进了癌症亚型的分子分类，使得研究人员能够更精确地理解不同亚型的生物学特性。此外，TCGA还为癌症的早期诊断和预后评估提供了重要的分子标记，推动了癌症精准医学的发展。

实际应用

在实际应用中，TCGA数据集被广泛用于开发和验证癌症诊断和治疗的新方法。例如，基于TCGA数据集的基因表达谱分析，研究人员可以开发出用于早期癌症检测的生物标志物。此外，TCGA数据集还支持了多种癌症治疗方案的个性化设计，通过分析患者的基因组信息，医生可以选择最有效的治疗策略。这些应用不仅提高了癌症患者的生存率，还显著改善了治疗效果。

数据集最近研究

相关研究论文

1
The Cancer Genome Atlas Pan-Cancer analysis projectThe Cancer Genome Atlas Research Network · 2013年
2
Comprehensive molecular characterization of urothelial bladder carcinomaThe Cancer Genome Atlas Research Network · 2014年
3
Comprehensive molecular portraits of human breast tumoursThe Cancer Genome Atlas Research Network · 2012年
4
Integrated genomic characterization of endometrial carcinomaThe Cancer Genome Atlas Research Network · 2013年
5
Comprehensive molecular characterization of gastric adenocarcinomaThe Cancer Genome Atlas Research Network · 2014年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

PRBench

PRBench是一个大规模专家标注的专业领域高风险推理基准测试数据集，当前版本覆盖法律和金融领域。包含1,100个专家编写的跨金融和法律领域的对话，19,356个专家策划的评估标准（每个任务10-30条），覆盖114个国家、47个美国司法管辖区和25个专业主题，并包含最具挑战性任务的硬子集（Finance-300, Legal-250）。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录