five

TCGA-MS, BRACS-MS

收藏
github2026-01-23 更新2026-01-24 收录
下载链接:
https://github.com/bifold-pathomics/continuous-magnification-sampling
下载链接
链接失效反馈
官方服务:
资源简介:
TCGA-MS和BRACS-MS是用于病理学基础模型连续放大采样的基准数据集。TCGA-MS可通过Hugging Face平台获取,BRACS-MS需要从官方来源下载并运行脚本创建数据集。

TCGA-MS and BRACS-MS are benchmark datasets for sequential magnification sampling in pathology foundation models. TCGA-MS is accessible via the Hugging Face platform, while BRACS-MS needs to be downloaded from its official source and created by running scripts to generate the dataset.
创建时间:
2025-12-31
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:TCGA-MS 与 BRACS-MS
  • 发布者/维护者:bifold-pathomics
  • 相关研究:病理学基础模型中的连续放大采样

数据集详情

TCGA-MS 数据集

  • 获取方式:通过 Hugging Face 平台下载。
  • 下载地址:https://huggingface.co/datasets/bifold-pathomics/TCGA-MS

BRACS-MS 数据集

  • 源数据:BRACS ROIs。
  • 源数据官方下载地址:https://www.bracs.icar.cnr.it/download/
  • 数据集创建:需通过运行提供的脚本 create_bracs_dataset.sh 来创建数据集。运行前需在脚本中调整源数据路径和输出路径。

评估与使用

  • 评估脚本:提供了针对两个数据集的评估脚本 run_tcga_eval.shrun_bracs_eval.sh
  • 运行要求:运行评估前需在命令中调整必要的数据路径。

版本与更新记录

  • 2025-01-09:添加了用于创建和评估 BRACS-MS 数据集的代码。
  • 2025-01-22:添加了用于创建和评估 TCGA-MS 数据集的代码。

使用前提与认证

  • 环境要求:Python 3.x,需安装 requirements.txt 中指定的依赖包。
  • 模型访问认证:使用某些公共模型需要 Hugging Face 账户认证。运行评估前需执行登录命令:huggingface-cli login --token YOUR_TOKEN_HERE
搜集汇总
数据集介绍
main_image_url
构建方式
在病理学领域,TCGA-MS与BRACS-MS数据集的构建体现了对连续放大采样技术的系统化应用。TCGA-MS数据集通过整合癌症基因组图谱中的多尺度病理图像,采用分层抽样策略确保样本的代表性与多样性。BRACS-MS则基于公开的BRACS ROI数据源,通过自动化脚本处理原始图像,生成标准化的多分辨率图像集合。两个数据集均经过严格的质控流程,确保图像标注的准确性与一致性,为病理学模型评估提供了可靠的基准数据。
特点
这些数据集的核心特点在于其连续放大采样的设计理念,能够模拟病理学家在诊断过程中从低倍到高倍的观察流程。TCGA-MS覆盖了广泛的癌症类型,包含丰富的组织学变异,而BRACS-MS专注于乳腺病变,提供了细致的病理亚型分类。两者均支持多尺度特征提取,便于模型在不同分辨率下进行性能比较。数据集的标准化格式与公开访问性,促进了病理人工智能研究的可重复性与跨模型对比。
使用方法
使用这些数据集时,研究者需首先配置Python环境并安装依赖包,通过Hugging Face平台获取TCGA-MS数据,或从官方来源下载BRACS原始数据后运行创建脚本。数据集适用于病理基础模型的评估,用户可通过提供的评估脚本调整数据路径,运行针对特定数据集的性能测试。整个流程强调可操作性,支持快速集成到现有研究框架中,助力模型在连续放大场景下的稳健性验证。
背景与挑战
背景概述
在计算病理学领域,数字病理切片的全景图像分析为癌症诊断与预后评估提供了革命性工具。TCGA-MS与BRACS-MS数据集于2025年初由相关研究团队构建并发布,旨在支持病理学基础模型中的连续放大采样研究。这些数据集依托于癌症基因组图谱和乳腺癌亚型分类挑战的权威数据源,核心研究聚焦于多尺度视觉表征学习,以增强模型对组织形态异质性的解析能力,其推出显著推动了自适应显微镜成像与自动化病理诊断方法的发展。
当前挑战
该数据集致力于解决病理图像多尺度分类与分割中的挑战,其核心难点在于如何建模不同放大倍数下组织结构的连续性变化,并实现跨分辨率的语义一致性。在构建过程中,研究者需应对原始数据格式异构、标注标准统一以及大规模切片存储与处理的工程复杂性,同时确保采样策略能够有效捕获从全局架构到细胞细节的形态学谱系。
常用场景
经典使用场景
在数字病理学领域,TCGA-MS和BRACS-MS数据集为连续放大采样提供了标准化基准,其经典使用场景聚焦于评估病理学基础模型在不同放大倍率下的性能表现。研究人员通过这两个数据集,能够系统分析模型在组织切片图像从低分辨率概览到高分辨率细节的连续尺度变换中的特征提取与分类能力,从而推动多尺度视觉理解在医学影像分析中的深入应用。
衍生相关工作
围绕TCGA-MS和BRACS-MS数据集,已衍生出一系列专注于多尺度病理图像分析的经典研究工作。这些工作包括基于连续放大采样的自监督预训练框架、尺度感知的特征融合网络,以及针对组织亚型分类的跨尺度注意力机制等。这些进展不仅丰富了计算病理学的方法体系,也为后续的病理基础模型设计与评估提供了重要参考范式。
数据集最近研究
最新研究方向
在数字病理学领域,高分辨率全切片图像的精准分析对癌症诊断与分级至关重要。TCGA-MS与BRACS-MS数据集的推出,聚焦于连续放大采样技术,旨在优化病理学基础模型的多尺度特征学习能力。当前前沿研究围绕如何利用这些数据集训练模型,以实现在不同放大倍数下对组织形态的连贯性解析,从而提升模型对乳腺癌等复杂病变的识别精度。这一方向与病理人工智能中可解释性与泛化性的热点议题紧密相连,推动了自适应多尺度分析框架的发展,为临床辅助诊断系统的可靠部署奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作