five

International Cancer Genome Consortium|癌症基因组学数据集|生物信息学数据集

收藏
dcc.icgc.org2024-10-26 收录
癌症基因组学
生物信息学
下载链接:
https://dcc.icgc.org/
下载链接
链接失效反馈
资源简介:
该数据集包含来自国际癌症基因组联盟(ICGC)的癌症基因组数据,涵盖多种癌症类型,包括基因突变、拷贝数变异、基因表达和表观遗传学数据等。
提供机构:
dcc.icgc.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
国际癌症基因组联盟(International Cancer Genome Consortium, ICGC)数据集的构建基于全球多个研究机构的合作,旨在系统性地收集和分析来自不同癌症类型的基因组数据。该数据集通过高通量测序技术,对数千种癌症样本进行全基因组、全外显子组和转录组测序,以揭示癌症基因组的复杂性和多样性。数据收集过程严格遵循国际标准,确保数据的准确性和一致性。
使用方法
ICGC数据集的使用方法多样,适用于多种癌症研究需求。研究人员可以通过ICGC门户网站访问和下载数据,进行基因组变异分析、生物标志物发现和药物靶点识别等研究。数据集还支持跨癌症类型的比较研究,有助于揭示癌症的共性和特异性。此外,ICGC数据集与其他公共数据库的整合使用,可以进一步增强研究的综合性和深度。
背景与挑战
背景概述
国际癌症基因组联盟(International Cancer Genome Consortium,ICGC)成立于2008年,由全球多个顶尖研究机构和科学家共同发起。该联盟旨在通过大规模的癌症基因组分析,揭示不同类型癌症的基因组变异,从而为癌症的预防、诊断和治疗提供科学依据。ICGC的成立标志着癌症研究进入了一个全新的基因组时代,其数据集的构建和共享极大地推动了全球癌症研究的进展,为个性化医疗和精准治疗奠定了基础。
当前挑战
ICGC数据集的构建过程中面临诸多挑战。首先,癌症基因组数据的复杂性和多样性使得数据的标准化和整合成为一大难题。其次,数据的隐私保护和伦理问题也是不可忽视的挑战,如何在确保数据安全的前提下实现全球共享是一个亟待解决的问题。此外,大规模基因组数据的存储和计算资源需求巨大,对技术基础设施提出了高要求。最后,如何从海量数据中提取有价值的信息,并转化为临床应用,是ICGC数据集面临的另一重要挑战。
发展历史
创建时间与更新
International Cancer Genome Consortium(ICGC)数据集创建于2008年,旨在系统性地收集和分析全球范围内的癌症基因组数据。该数据集定期更新,以反映最新的癌症基因组研究成果。
重要里程碑
ICGC的成立标志着癌症基因组学研究进入了一个新的时代。其首个重大里程碑是2010年发布的初步数据,涵盖了多种癌症类型的基因组变异信息。随后,2014年ICGC发布了大规模的癌症基因组数据,极大地推动了癌症精准医疗的发展。近年来,ICGC不断扩展其数据覆盖范围,包括罕见癌症和儿童癌症,进一步丰富了全球癌症基因组数据库。
当前发展情况
当前,ICGC数据集已成为全球癌症研究的重要资源,为科学家提供了丰富的基因组数据,促进了癌症生物学和治疗策略的研究。ICGC不仅支持基础研究,还通过与临床研究的合作,推动了癌症诊断和治疗的个性化发展。此外,ICGC的数据共享政策促进了国际合作,加速了全球癌症研究的进展,为实现癌症的早期诊断和有效治疗提供了坚实的基础。
发展历程
  • 国际癌症基因组联盟(International Cancer Genome Consortium,ICGC)正式成立,旨在通过大规模基因组测序研究癌症的遗传基础。
    2008年
  • ICGC发布了首个癌症基因组数据集,涵盖多种癌症类型的基因组变异信息。
    2010年
  • ICGC与The Cancer Genome Atlas(TCGA)合作,进一步扩展了癌症基因组数据的覆盖范围和深度。
    2012年
  • ICGC发布了超过10,000个癌症样本的基因组数据,标志着大规模癌症基因组研究的里程碑。
    2014年
  • ICGC启动了“25/25”项目,计划在2025年前完成25种主要癌症类型的基因组分析。
    2016年
  • ICGC发布了超过20,000个癌症样本的基因组数据,进一步推动了癌症基因组学的研究进展。
    2018年
  • ICGC继续扩展其数据集,涵盖更多癌症类型和更详细的基因组变异信息,为癌症研究和治疗提供了重要资源。
    2020年
常用场景
经典使用场景
在癌症基因组学领域,International Cancer Genome Consortium(ICGC)数据集被广泛用于研究不同癌症类型的基因组变异。该数据集汇集了来自全球多个研究机构的高质量癌症基因组数据,涵盖了多种癌症类型,包括肺癌、乳腺癌和结直肠癌等。研究者利用这些数据进行基因突变分析、基因表达谱研究以及药物靶点识别,从而深入理解癌症的发病机制和个性化治疗策略。
解决学术问题
ICGC数据集在解决癌症基因组学中的多个学术问题方面发挥了关键作用。通过整合和分析大规模的癌症基因组数据,研究者能够识别出与癌症发生和发展密切相关的基因突变和表观遗传变化。这些发现不仅有助于揭示癌症的分子机制,还为开发新的诊断工具和治疗策略提供了理论基础。此外,ICGC数据集还促进了跨学科合作,推动了癌症生物学和临床医学的进步。
实际应用
在实际应用中,ICGC数据集为癌症诊断和治疗提供了重要的参考依据。临床医生和研究人员可以利用这些数据来开发和优化癌症筛查方法,提高早期诊断的准确性。同时,基于ICGC数据集的研究成果,制药公司能够设计出更具针对性的抗癌药物,从而提高治疗效果和患者生存率。此外,ICGC数据集还支持了个性化医疗的发展,使得医生能够根据患者的基因组信息制定更为精准的治疗方案。
数据集最近研究
最新研究方向
在癌症基因组学领域,International Cancer Genome Consortium(ICGC)数据集的最新研究方向主要集中在多组学数据的整合与分析。通过结合基因组、转录组、表观基因组和蛋白质组等多层次数据,研究者们致力于揭示癌症的复杂分子机制。这些研究不仅有助于识别新的治疗靶点,还推动了个性化医疗的发展。此外,ICGC数据集的应用也促进了全球范围内的癌症研究合作,加速了新疗法的开发和临床转化。
相关研究论文
  • 1
    International Cancer Genome Consortium: A comprehensive framework to understand the cancer genomeInternational Cancer Genome Consortium · 2010年
  • 2
    The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium: Pan-cancer analysis of whole genomesInternational Cancer Genome Consortium, The Cancer Genome Atlas · 2020年
  • 3
    The ICGC 25K Project: Towards an holistic understanding of the cancer genomeInternational Cancer Genome Consortium · 2014年
  • 4
    The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium: Pan-cancer analysis of whole genomesInternational Cancer Genome Consortium, The Cancer Genome Atlas · 2020年
  • 5
    The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium: Pan-cancer analysis of whole genomesInternational Cancer Genome Consortium, The Cancer Genome Atlas · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录