five

GDC (Genomic Data Commons)|癌症研究数据集|基因组数据数据集

收藏
portal.gdc.cancer.gov2024-10-26 收录
癌症研究
基因组数据
下载链接:
https://portal.gdc.cancer.gov/
下载链接
链接失效反馈
资源简介:
GDC (Genomic Data Commons) 是一个综合性的数据平台,旨在为癌症研究提供统一的数据存储和访问服务。该数据集包含了多种癌症类型的基因组数据,包括基因表达、突变、拷贝数变异、甲基化等数据类型。GDC还提供了数据分析工具和API接口,方便研究人员进行数据查询和分析。
提供机构:
portal.gdc.cancer.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
GDC(Genomic Data Commons)数据集的构建基于大规模的基因组学研究,汇集了来自多个癌症研究项目的高质量基因组数据。通过统一的数据标准和处理流程,GDC确保了数据的准确性和一致性。数据集包括基因表达、突变、拷贝数变异等多种类型的基因组数据,通过自动化和人工审核相结合的方式进行质量控制,以确保数据的高可靠性。
使用方法
GDC数据集的使用方法多样,研究人员可以通过GDC的在线平台直接访问和下载所需数据。平台提供了强大的搜索和过滤功能,用户可以根据研究需求筛选特定的基因组数据。此外,GDC还支持API接口,方便研究人员进行自动化数据获取和分析。对于需要进行大规模数据处理的科研团队,GDC提供了详细的使用指南和技术支持,确保数据的正确使用和分析。
背景与挑战
背景概述
GDC(Genomic Data Commons)数据集由美国国家癌症研究所(NCI)于2016年推出,旨在整合和标准化癌症基因组数据,以支持癌症研究和临床应用。该数据集汇集了来自多种癌症类型的基因组、表观基因组和转录组数据,为研究人员提供了丰富的资源。GDC的推出标志着癌症基因组学研究进入了一个新的阶段,其数据被广泛应用于基因突变分析、药物靶点识别和个性化治疗策略的开发,极大地推动了癌症研究的进展。
当前挑战
GDC数据集在构建过程中面临了多重挑战。首先,数据的标准化和整合是一个复杂的过程,涉及不同来源、格式和质量的数据。其次,数据隐私和安全问题也是一大挑战,尤其是在处理患者敏感信息时,必须严格遵守相关法律法规。此外,数据的可访问性和分析工具的兼容性问题也限制了其广泛应用。最后,随着基因组学技术的快速发展,数据集需要不断更新和扩展,以保持其前沿性和实用性。
发展历史
创建时间与更新
GDC(Genomic Data Commons)数据集创建于2016年,由美国国家癌症研究所(NCI)发起,旨在整合和标准化癌症基因组数据。自创建以来,GDC定期进行数据更新,以确保数据的时效性和完整性。
重要里程碑
GDC的重要里程碑之一是其在2017年成功整合了TCGA(The Cancer Genome Atlas)项目的数据,这一整合极大地丰富了数据集的内容和多样性。此外,GDC在2018年引入了数据分析和可视化工具,使得研究人员能够更便捷地访问和分析基因组数据。2020年,GDC进一步扩展了其数据类型,包括临床数据和分子谱数据,从而为癌症研究提供了更全面的数据支持。
当前发展情况
当前,GDC已成为全球癌症基因组研究的重要资源,其数据被广泛应用于癌症生物学、药物开发和精准医学等领域。GDC不仅提供了高质量的基因组数据,还通过持续的技术创新和数据更新,确保了数据的可靠性和前沿性。此外,GDC的开放访问政策和用户友好的界面,使得全球的研究人员能够无障碍地获取和利用这些宝贵的数据资源,从而推动了癌症研究的快速发展和突破。
发展历程
  • 美国国家癌症研究所(NCI)宣布推出GDC(Genomic Data Commons),这是一个统一的数据共享平台,旨在整合和标准化癌症基因组数据。
    2016年
  • GDC正式上线,开始提供对TCGA(The Cancer Genome Atlas)和其他癌症基因组数据集的访问。
    2017年
  • GDC增加了对TARGET(Therapeutically Applicable Research to Generate Effective Treatments)数据集的支持,进一步扩展了其数据覆盖范围。
    2018年
  • GDC引入了新的数据分析工具和API,增强了用户对基因组数据的访问和分析能力。
    2019年
  • GDC开始整合COVID-19相关的基因组数据,展示了其在公共卫生领域的扩展应用。
    2020年
  • GDC发布了其数据共享和访问政策的更新,强调了数据隐私和安全性的重要性。
    2021年
  • GDC与多个国际研究机构合作,推动全球癌症基因组数据的共享和协作研究。
    2022年
常用场景
经典使用场景
在基因组学领域,GDC(Genomic Data Commons)数据集被广泛用于癌症基因组学的研究。该数据集整合了来自多种癌症类型的基因组、表观基因组和转录组数据,为研究人员提供了丰富的资源。通过分析这些数据,研究者能够识别与癌症发生和发展相关的关键基因变异,从而推动个性化医疗的发展。
解决学术问题
GDC数据集解决了癌症研究中的多个关键学术问题。首先,它提供了大规模、高质量的基因组数据,有助于识别癌症驱动基因和突变模式。其次,通过整合多维度的生物数据,GDC促进了跨学科研究,如基因组学与临床数据的结合,从而提高了癌症诊断和治疗的精准性。此外,GDC还支持了癌症生物标志物的发现,为早期诊断和预后评估提供了新的工具。
实际应用
在实际应用中,GDC数据集被用于开发和验证癌症诊断和治疗的新方法。例如,临床医生可以利用GDC数据集中的基因组信息,为患者制定个性化的治疗方案。此外,制药公司利用GDC数据集进行药物靶点的筛选和验证,加速新药的研发进程。GDC还支持了公共卫生政策的制定,通过分析大规模的基因组数据,为癌症预防和控制提供科学依据。
数据集最近研究
最新研究方向
在基因组学领域,GDC(Genomic Data Commons)数据集的最新研究方向主要集中在癌症基因组学的深度分析与个性化治疗策略的开发。随着高通量测序技术的进步,研究人员能够从GDC中提取大量癌症相关的基因组数据,这些数据为揭示癌症的分子机制提供了宝贵的资源。当前的研究热点包括通过整合多组学数据(如基因组、转录组和表观基因组)来识别癌症驱动基因和潜在的治疗靶点。此外,GDC数据集还被广泛应用于开发和验证基于基因组特征的癌症分类模型,这些模型有望为临床医生提供更精准的诊断和治疗建议。通过这些前沿研究,GDC数据集不仅推动了癌症研究的深入,也为实现精准医疗的目标奠定了坚实的基础。
相关研究论文
  • 1
    The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
  • 2
    The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
  • 3
    The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
  • 4
    The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
  • 5
    The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录