five

Breast-Cancer-datasets-to-mine|乳腺癌研究数据集|数据挖掘数据集

收藏
github2024-05-12 更新2024-05-31 收录
乳腺癌研究
数据挖掘
下载链接:
https://github.com/dfimerel/Breast-Cancer-datasets-to-mine
下载链接
链接失效反馈
资源简介:
乳腺癌数据集集合,用于挖掘和探索,包含多种分子数据类型,如基因表达、DNA突变、CNA、DNA甲基化、蛋白质表达、组织病理学图像等。

A collection of breast cancer datasets designed for mining and exploration, encompassing a variety of molecular data types such as gene expression, DNA mutations, copy number alterations (CNA), DNA methylation, protein expression, and histopathological images.
创建时间:
2022-08-28
原始信息汇总

数据集概述

cBioPortal & ICGC

  • 内容: 包含基因表达、DNA突变、拷贝数变异(CNA)、DNA甲基化、蛋白质表达、组织病理学图像。
  • 来源: cBioPortal, ICGC。

PCAWG

  • 内容: 包含全基因组测序数据。
  • 来源: PCAWG。

GENIE

  • 内容: 包含针对常见癌症相关基因的外显子突变。
  • 来源: GENIE。

Cell lines

  • 内容: 包含癌细胞系的基因表达、DNA突变、CNA及其他数据。
  • 来源: Cancer Cell Line Encyclopedia。

Early-stage BC

  • 内容: 包含早期阶段乳腺癌的不同分子数据。
  • 来源: RNA测序为基础的单样本预测分子亚型及复发风险用于早期乳腺癌临床评估。

Metastatic BC

  • 内容: 包含转移性乳腺癌的不同分子数据。
  • 来源: 多个研究,包括基因组分析和临床模型等。

Single-cell transcriptomics (and genomics) datasets

  • 内容: 包含单细胞转录组(和基因组)数据。
  • 来源: 多个研究,涉及细胞异质性、免疫环境变化等。

Spatial transcriptomics datasets

  • 内容: 包含空间转录组数据。
  • 来源: 多个研究,涉及肿瘤相关细胞类型交互等。

Multi-omics datasets

  • 内容: 包含多组学数据,未归类于其他类别。
  • 来源: 多个研究,涉及免疫逃逸、治疗反应等。

Imaging techniques

  • 内容: 包含影像技术数据。
  • 来源: 多个研究,涉及免疫治疗反应预测等。

Normal Adult Human Breast

  • 内容: 包含正常成人乳腺的单细胞图谱。
  • 来源: 研究涉及细胞稳态变化。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Breast-Cancer-datasets-to-mine数据集的构建基于多个权威来源,包括cBioPortal、ICGC、PCAWG、GENIE等,涵盖了基因表达、DNA突变、拷贝数变异、DNA甲基化、蛋白质表达以及组织病理学图像等多种数据类型。这些数据通过整合来自不同研究项目和临床试验的信息,形成了一个全面且多层次的乳腺癌数据资源库。
特点
该数据集的显著特点在于其多维度和多层次的数据结构,不仅包括基因组和转录组数据,还涵盖了单细胞和空间转录组学数据,以及影像学技术的结果。这种多模态数据的整合为乳腺癌的分子机制研究提供了丰富的信息,有助于深入理解肿瘤的异质性和复杂性。
使用方法
Breast-Cancer-datasets-to-mine数据集适用于多种研究目的,包括但不限于乳腺癌的分子分型、预后预测、治疗反应评估以及新药开发。研究人员可以通过访问GitHub页面下载所需数据,并利用Python、R等编程语言进行数据分析和建模。此外,数据集的详细文档和示例代码也为初学者提供了友好的使用指南。
背景与挑战
背景概述
乳腺癌作为全球女性最常见的恶性肿瘤之一,其研究一直是医学和生物学领域的重要课题。Breast-Cancer-datasets-to-mine数据集的创建旨在整合多种乳腺癌样本数据,涵盖基因表达、DNA突变、拷贝数变异、DNA甲基化、蛋白质表达及组织病理学图像等多个维度。该数据集由多个知名研究机构和平台如cBioPortal、ICGC、PCAWG、GENIE等共同贡献,主要研究人员和机构包括国际癌症基因组联盟(ICGC)和美国癌症研究协会(AACR)等。其核心研究问题在于通过多维数据分析,揭示乳腺癌的分子机制和潜在治疗靶点,对乳腺癌的精准医疗和个性化治疗具有重要推动作用。
当前挑战
尽管Breast-Cancer-datasets-to-mine数据集在乳腺癌研究中具有重要价值,但其构建和应用过程中仍面临诸多挑战。首先,数据来源多样且异质性强,整合不同平台和技术的数据需要克服技术标准和数据格式的不一致性。其次,乳腺癌的分子异质性极高,如何在庞大的数据集中识别和区分不同亚型的乳腺癌,是当前研究的主要难点。此外,数据隐私和伦理问题也是不可忽视的挑战,如何在确保数据安全的前提下,实现数据的共享和利用,是该数据集未来发展的重要方向。
常用场景
经典使用场景
在乳腺癌研究领域,Breast-Cancer-datasets-to-mine数据集被广泛用于探索基因表达、DNA突变、拷贝数变异(CNA)、DNA甲基化、蛋白质表达以及组织病理学图像等多维度的分子数据。这些数据为研究人员提供了深入分析乳腺癌分子机制的宝贵资源,特别是在早期和转移性乳腺癌的分子特征研究中。
实际应用
在实际应用中,Breast-Cancer-datasets-to-mine数据集支持了多种临床决策工具的开发,如基于基因表达的预后模型和治疗反应预测模型。此外,该数据集还被用于验证新的生物标志物,以改进乳腺癌的早期诊断和治疗方案的选择,从而提高患者的生存率和生活质量。
衍生相关工作
基于Breast-Cancer-datasets-to-mine数据集,研究者们开展了多项经典工作,包括单细胞转录组学和空间转录组学的深入分析,揭示了乳腺癌细胞的异质性和免疫微环境的复杂性。这些研究不仅推动了乳腺癌的基础研究,还为开发新的治疗策略和药物靶点提供了重要线索。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录