five

TCGA|癌症基因组数据集|多组学数据数据集

收藏
DataCite Commons2024-02-04 更新2024-08-19 收录
癌症基因组
多组学数据
下载链接:
https://figshare.com/articles/dataset/TCGA/25138580
下载链接
链接失效反馈
资源简介:
The feature matrix and PSN matrix for TCGA dataset.For paper "DeepMoIC: Multi-Omics Data Integration via Deep Graph Convolutional Networks for Cancer Subtype Classification".
提供机构:
figshare
创建时间:
2024-02-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
TCGA(The Cancer Genome Atlas)数据集的构建基于大规模的多组学数据整合,涵盖了基因组、转录组、蛋白质组和表观遗传学等多个层面。通过高通量测序技术和生物信息学分析,研究人员对多种癌症类型进行了深入的基因组学研究,旨在揭示癌症的分子机制和潜在的治疗靶点。数据集的构建过程严格遵循国际标准,确保数据的准确性和可靠性。
使用方法
TCGA数据集的使用方法多样,研究人员可以通过TCGA官方网站或相关数据库平台访问和下载数据。在使用前,建议对数据进行预处理和质量控制,以确保分析结果的准确性。常见的应用包括基因表达分析、突变谱分析、生存分析等。此外,TCGA数据集还可以与其他公共数据集结合,进行跨癌症类型的比较研究,从而揭示更广泛的生物学规律和潜在的治疗策略。
背景与挑战
背景概述
TCGA(The Cancer Genome Atlas)数据集是由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)于2006年启动的一项大型癌症基因组研究项目。该项目旨在通过整合多维度的基因组、转录组和表观遗传数据,全面解析多种癌症的分子特征。TCGA数据集的核心研究问题包括癌症基因突变、基因表达异常、表观遗传变化等,其对癌症研究领域的影响深远,为个性化医疗和精准治疗提供了重要的数据支持。
当前挑战
TCGA数据集在构建过程中面临多重挑战。首先,数据的高维度和复杂性使得数据整合和分析变得极为困难。其次,不同癌症类型的异质性增加了数据标准化和一致性处理的难度。此外,数据隐私和伦理问题也是TCGA项目必须面对的重要挑战。在应用层面,如何从海量数据中提取有意义的生物标志物和治疗靶点,以及如何将这些发现转化为临床实践,仍是当前研究的重点和难点。
发展历史
创建时间与更新
TCGA(The Cancer Genome Atlas)数据集创建于2006年,由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)联合发起。该数据集的更新持续至2018年,期间不断整合和发布新的癌症基因组数据。
重要里程碑
TCGA的创建标志着癌症研究进入了一个全新的基因组时代。其首次大规模整合了多种癌症类型的基因组、转录组和表观基因组数据,为癌症的分子分类和个性化治疗提供了基础。2013年,TCGA发布了首个全面的癌症基因组图谱,涵盖了33种癌症类型,这一里程碑事件极大地推动了癌症研究的进展。
当前发展情况
当前,TCGA数据集已成为全球癌症研究的重要资源,被广泛应用于癌症基因组学、生物信息学和临床医学研究。其数据不仅支持了多项重要的癌症研究成果,还促进了多学科交叉研究的发展。此外,TCGA的成功经验也启发了其他国家开展类似的基因组研究项目,进一步推动了全球癌症研究的协作与创新。
发展历程
  • TCGA项目正式启动,旨在通过大规模基因组分析研究癌症。
    2006年
  • TCGA发布了首个癌症基因组图谱,涵盖多种癌症类型的基因组数据。
    2010年
  • TCGA数据首次应用于临床研究,揭示了多种癌症的分子特征。
    2012年
  • TCGA发布了全面的癌症基因组图谱,包括33种癌症类型的数据。
    2014年
  • TCGA数据集被广泛应用于癌症研究和个性化医疗,推动了精准医学的发展。
    2018年
常用场景
经典使用场景
在癌症研究领域,TCGA(The Cancer Genome Atlas)数据集被广泛用于分析不同癌症类型的基因组变异。通过整合多维度的基因组数据,包括基因表达、DNA甲基化、拷贝数变异和突变信息,TCGA为研究人员提供了一个全面的视角来理解癌症的分子基础。这些数据不仅有助于识别癌症驱动基因,还能揭示不同癌症亚型的分子特征,从而为个性化治疗策略的开发提供依据。
解决学术问题
TCGA数据集在解决癌症研究中的多个学术问题方面发挥了关键作用。首先,它帮助科学家识别了多种癌症类型的关键驱动基因,这些基因的突变与癌症的发生和发展密切相关。其次,TCGA数据集促进了癌症亚型的分子分类,使得研究人员能够更精确地理解不同亚型的生物学特性。此外,TCGA还为癌症的早期诊断和预后评估提供了重要的分子标记,推动了癌症精准医学的发展。
实际应用
在实际应用中,TCGA数据集被广泛用于开发和验证癌症诊断和治疗的新方法。例如,基于TCGA数据集的基因表达谱分析,研究人员可以开发出用于早期癌症检测的生物标志物。此外,TCGA数据集还支持了多种癌症治疗方案的个性化设计,通过分析患者的基因组信息,医生可以选择最有效的治疗策略。这些应用不仅提高了癌症患者的生存率,还显著改善了治疗效果。
数据集最近研究
最新研究方向
在癌症基因组学领域,TCGA(The Cancer Genome Atlas)数据集的最新研究方向主要集中在多组学数据的整合与分析。研究者们通过结合基因组、转录组、蛋白质组和表观遗传学等多层次数据,深入探索癌症的分子机制和潜在治疗靶点。这一研究方向不仅有助于揭示癌症的复杂性,还为个性化医疗提供了新的视角。此外,TCGA数据集在肿瘤异质性和进化动力学方面的研究也取得了显著进展,为理解癌症的多样性和演变提供了重要依据。
相关研究论文
  • 1
    The Cancer Genome Atlas Pan-Cancer analysis projectThe Cancer Genome Atlas Research Network · 2013年
  • 2
    Comprehensive molecular characterization of urothelial bladder carcinomaThe Cancer Genome Atlas Research Network · 2014年
  • 3
    Comprehensive molecular portraits of human breast tumoursThe Cancer Genome Atlas Research Network · 2012年
  • 4
    Integrated genomic characterization of endometrial carcinomaThe Cancer Genome Atlas Research Network · 2013年
  • 5
    Comprehensive molecular characterization of gastric adenocarcinomaThe Cancer Genome Atlas Research Network · 2014年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Global Administrative Areas (GADM)

GADM是一个全球行政区域数据集,提供了全球各个国家和地区的行政区划边界数据,包括国家、省、市、县等不同层级的行政区域。数据集包含了详细的边界信息,适用于地理信息系统(GIS)和空间分析应用。

gadm.org 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录