five

METABRIC|乳腺癌研究数据集|分子生物学数据集

收藏
www.cbioportal.org2024-10-28 收录
乳腺癌研究
分子生物学
下载链接:
https://www.cbioportal.org/study/summary?id=brca_metabric
下载链接
链接失效反馈
资源简介:
METABRIC(Molecular Taxonomy of Breast Cancer International Consortium)数据集是一个关于乳腺癌的分子分类研究数据集,包含了来自850名乳腺癌患者的基因表达数据、临床数据和生存信息。该数据集旨在帮助研究人员理解乳腺癌的分子特征,并开发新的诊断和治疗方法。
提供机构:
www.cbioportal.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
METABRIC数据集的构建基于对乳腺癌患者的多维度数据收集与整合。该数据集汇集了来自多个研究机构的临床数据、基因表达谱、突变信息以及患者生存数据。通过高通量测序技术,研究人员获取了大量基因表达数据,并结合临床记录进行系统性分析,以确保数据的全面性和准确性。此外,数据集还包含了患者的治疗方案和预后信息,为深入研究乳腺癌的分子机制和临床应用提供了坚实基础。
使用方法
METABRIC数据集的使用方法多样,适用于多种研究目的。研究人员可以通过分析基因表达数据,识别与乳腺癌相关的关键基因和信号通路。临床医生则可以利用患者的临床特征和生存数据,构建和验证预后模型,以指导个性化治疗方案的制定。此外,该数据集还可用于机器学习和深度学习算法的训练和测试,以提高乳腺癌诊断和治疗的准确性和效率。
背景与挑战
背景概述
METABRIC(Molecular Taxonomy of Breast Cancer International Consortium)数据集是由加拿大和英国的研究团队于2012年创建的,主要研究人员包括Carlos Caldas和Samuel Aparicio等。该数据集的核心研究问题集中在乳腺癌的分子分类和预后预测,通过整合基因表达、拷贝数变异和临床数据,旨在提高对乳腺癌患者的个体化治疗策略。METABRIC数据集的发布对乳腺癌研究领域产生了深远影响,为精准医学的发展提供了重要数据支持。
当前挑战
METABRIC数据集在构建过程中面临了多重挑战。首先,数据整合涉及多种类型的生物信息数据,如基因表达和临床数据,确保这些数据的一致性和准确性是一个复杂的过程。其次,数据集的规模庞大,处理和分析这些数据需要高效的计算资源和算法。此外,如何从海量数据中提取有意义的生物标志物和预后因子,以指导临床决策,是该数据集面临的主要挑战之一。
发展历史
创建时间与更新
METABRIC数据集创建于2012年,由英国癌症研究所和加拿大不列颠哥伦比亚癌症机构合作完成。该数据集自创建以来,经历了多次更新,最近一次重大更新是在2016年,进一步丰富了其数据内容和分析工具。
重要里程碑
METABRIC数据集的创建标志着乳腺癌基因组学研究进入了一个新的时代。其首次整合了大规模的基因表达数据、拷贝数变异和临床数据,为乳腺癌的分子分型和个性化治疗提供了坚实的基础。2016年的更新引入了更多的临床随访数据和新的生物标志物,显著提升了数据集的实用性和研究价值。
当前发展情况
当前,METABRIC数据集已成为乳腺癌研究领域的重要资源,广泛应用于基因组学、生物信息学和临床医学的研究中。其丰富的数据内容和持续的更新,使得研究人员能够更深入地理解乳腺癌的分子机制,推动了个性化医疗的发展。此外,METABRIC数据集的开放获取政策,促进了全球范围内的合作与知识共享,对提升乳腺癌的诊断和治疗水平具有重要意义。
发展历程
  • METABRIC数据集首次发表在《Nature》期刊上,由Curtis等人提出,包含2500名乳腺癌患者的基因表达数据和临床信息。
    2012年
  • METABRIC数据集被应用于预测乳腺癌患者的生存率,相关研究成果发表在《Nature Communications》上。
    2016年
  • METABRIC数据集被用于开发新的乳腺癌亚型分类模型,研究结果发表在《Journal of Clinical Oncology》。
    2018年
  • METABRIC数据集被整合到多个癌症研究平台,促进了跨学科的数据共享和分析。
    2020年
常用场景
经典使用场景
在癌症研究领域,METABRIC数据集被广泛用于乳腺癌的分子特征分析。该数据集整合了基因表达、拷贝数变异和临床数据,为研究人员提供了一个全面的乳腺癌分子图谱。通过分析这些数据,研究者能够识别出与乳腺癌预后和治疗反应相关的关键基因和生物标志物,从而为个性化治疗策略的制定提供科学依据。
解决学术问题
METABRIC数据集在解决乳腺癌研究中的关键学术问题方面发挥了重要作用。它帮助研究人员识别出与乳腺癌复发和生存率相关的基因表达模式,从而揭示了潜在的分子机制。此外,该数据集还促进了多因素生存分析模型的开发,使得研究人员能够更准确地预测患者的预后,并为临床决策提供支持。
实际应用
在实际应用中,METABRIC数据集为乳腺癌的精准医疗提供了重要支持。通过对基因表达数据的分析,临床医生能够为患者制定个性化的治疗方案,提高治疗效果并减少副作用。此外,该数据集还被用于开发和验证预测模型,帮助医生在早期阶段识别出高风险患者,从而进行更有效的干预和管理。
数据集最近研究
最新研究方向
在乳腺癌研究领域,METABRIC数据集已成为探索肿瘤生物学和临床决策的重要资源。最新研究方向主要集中在利用该数据集进行深度学习模型的开发,以提高乳腺癌的早期诊断和预后预测的准确性。研究者们通过整合基因表达、突变和临床数据,构建多模态模型,旨在揭示肿瘤的复杂分子机制,并为个性化治疗提供科学依据。此外,METABRIC数据集还被用于评估新型药物和治疗策略的有效性,推动了精准医学的发展。这些研究不仅提升了乳腺癌患者的生存率和生活质量,也为全球癌症研究提供了宝贵的数据支持。
相关研究论文
  • 1
    The Molecular Taxonomy of Primary Breast CancerUniversity of Cambridge · 2012年
  • 2
    A comprehensive transcriptional portrait of human cancer cell linesWellcome Trust Sanger Institute · 2015年
  • 3
    Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortalMemorial Sloan Kettering Cancer Center · 2013年
  • 4
    A pan-cancer molecular analysis of breast cancer progressionUniversity of California, San Francisco · 2016年
  • 5
    Genomic and molecular landscape of DNA damage repair deficiency across the cancer genome atlasNational Cancer Institute · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Maddison Project Database

The Maddison Project Database was started in March 2010. The project builds on the original dataset created by economist Agnus Maddison to revise or adjust the historical economic data based on new information. Data for population, GDP, and per capita GDP are presented by countries, small country groups, regions, and the world, dating back to Roman times. In the January 2013 update many of the pre-1820 and all of the pre-1600 numbers for GDP per capita were modified. GDP per capita data for 2009 and 2010 were also added.

Global Health Data Exchange () 收录

中文高质量大模型多轮对话SFT数据集

该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。

OpenDataLab 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录

LSUI (Large Scale Underwater Image Dataset)

LSUI dataset is a large-scale underwater image dataset that has 5004 image pairs

kaggle 收录