TextBraTS

Name: TextBraTS
Creator: 立命馆大学，大阪，日本
Published: 2025-06-20 14:57:56
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://github.com/Jupitern52/TextBraTS

下载链接

链接失效反馈

官方服务：

资源简介：

TextBraTS数据集是一个创新的多模态数据集，它包含了配对的MRI体积和丰富的文本注释，来源于广泛采用的BraTS2020基准。该数据集由369个多模态脑MRI扫描组成，每个扫描都带有专家的文本注释。数据集的创建过程包括使用GPT-4o模型生成初步的伪报告，然后由专家放射科医生进行审查和修正。TextBraTS数据集旨在解决脑肿瘤分析中缺乏结合放射图像和相应文本注释的综合数据集的问题，以促进多模态方法的探索。

The TextBraTS dataset is an innovative multimodal dataset that comprises paired MRI volumes and comprehensive textual annotations, derived from the widely adopted BraTS2020 benchmark. This dataset consists of 369 multimodal brain MRI scans, each accompanied by expert-generated textual annotations. The development process of this dataset involves generating preliminary pseudo-reports using the GPT-4o model, followed by review and revision by expert radiologists. The TextBraTS dataset aims to address the shortage of comprehensive datasets that combine radiographic images and their corresponding textual annotations for brain tumor analysis, thereby facilitating the exploration of multimodal approaches.

提供机构：

立命馆大学，大阪，日本

创建时间：

2025-06-20

原始信息汇总

TextBraTS 数据集概述

数据集简介

TextBraTS 是一个开放获取的文本引导3D脑肿瘤分割数据集，包含配对的脑部MRI扫描和专家标注的放射学报告。该数据集旨在推动神经肿瘤学中视觉与语言多模态融合研究，相关论文已被MICCAI 2025接收。

核心特征

多模态MRI数据：包含BraTS20挑战赛训练集的3D脑部MRI扫描（T1、T1ce、T2、FLAIR序列）及专家标注分割结果
结构化放射报告：每个病例配备专业撰写的放射学报告
文本-图像对齐方法：支持多模态融合研究

数据获取

原始MRI数据：需从BraTS 2020官网下载训练集
文本与特征文件：
- Google Drive下载
- Hugging Face下载
数据合并：使用merge.py脚本将下载的MRI数据与文本特征文件合并

应用场景

文本引导分割模型的开发与基准测试
医学影像中的多模态融合算法评估
语言驱动的医学AI研究

模型资源

预训练权重：下载链接
Swin UNETR预训练权重：下载链接

使用方法

推理：python test.py --pretrained_dir=/path/to/weights/ --exp_name=TextBraTS
训练：python main.py --distributed --use_ssl_pretrained --save_checkpoint --logdir=TextBraTS

引用格式

bibtex @inproceedings{shi2025textbrats, title = {TextBraTS: Text-Guided Volumetric Brain Tumor Segmentation with Innovative Dataset Development and Fusion Module Exploration}, author = {Shi, Xiaoyu and Jain, Rahul Kumar and Li, Yinhao and Hou, Ruibo and Cheng, Jingliang and Bai, Jie and Zhao, Guohua and Lin, Lanfen and Xu, Rui and Chen, Yen-wei}, booktitle = {Proceedings of the International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI)}, year = {2025}, note = {to appear} }

搜集汇总

数据集介绍

构建方式

TextBraTS数据集的构建基于BraTS2020分割挑战训练集，包含369例多模态脑MRI扫描数据。研究团队采用GPT-4o模型作为预标注辅助工具，将3D Flair图像切片转换为视频格式输入模型生成初步伪报告，随后由放射科专家进行精细化修正。为确保标注一致性，建立了包含两名放射科医师独立标注、第三方专家仲裁的质量控制流程，最终形成包含四种影像模态和文本模态的配对数据集。

特点

作为首个公开的脑肿瘤体积级多模态数据集，TextBraTS的创新性体现在其独特的文本-影像配对结构。数据集中的文本标注采用标准化模板，包含病灶三维空间定位、信号特征等关键临床信息，并严格遵循神经解剖学术语体系。相较于现有单模态脑肿瘤数据集，该数据集通过结构化文本描述为影像分割任务提供了丰富的语义指导信息，支持开发先进的跨模态融合算法。

使用方法

该数据集支持端到端的文本引导三维医学图像分割研究。典型使用流程包括：通过BioBERT模型提取文本特征，采用SwinUNETR架构提取影像特征，利用提出的序列交叉注意力机制实现模态融合。实验表明，模板化文本输入与提出的SeqCA模块协同作用，在增强肿瘤、全肿瘤和肿瘤核心三个分割区域均显著提升Dice系数。数据集已按220:55:94比例划分训练、验证和测试集，便于算法开发与评估。

背景与挑战

背景概述

TextBraTS数据集由Ritsumeikan University、Zhengzhou University、Zhejiang University和Dalian University of Technology的研究团队于2025年6月发布，旨在解决脑肿瘤分割领域多模态数据融合的关键问题。该数据集基于BraTS2020基准构建，首次提供了配对的MRI三维体积数据与专业文本注释，填补了脑肿瘤分析领域缺乏图像-文本多模态数据集的空白。作为医学影像分析领域的重要创新，TextBraTS通过整合放射学报告与影像数据，为开发更接近临床诊断实践的智能分割算法奠定了基础，显著推动了多模态医学图像分析的发展。

当前挑战

TextBraTS数据集面临的核心挑战体现在两个方面：在领域问题层面，传统脑肿瘤分割方法仅依赖单一影像模态，难以捕捉临床诊断中关键的图像-文本协同信息，导致对肿瘤边界和亚区的识别精度不足；在构建过程层面，数据集开发需克服三维医学影像与自由文本的时空对齐难题，包括跨模态标注一致性保障、GPT-4o生成报告的医学准确性验证，以及专业放射科医生标注资源的高效协调。此外，体积级文本注释的标准化模板设计，以及不同医疗机构间术语差异的归一化处理，均为数据集构建过程中的重要技术壁垒。

常用场景

经典使用场景

TextBraTS数据集在医学影像分析领域具有重要的应用价值，特别是在脑肿瘤分割任务中。该数据集通过结合多模态MRI影像与详细的文本注释，为研究人员提供了一个独特的资源，用于探索文本引导的脑肿瘤分割方法。经典使用场景包括利用文本注释增强影像分割的准确性，以及开发多模态融合算法以提升分割性能。

衍生相关工作

基于TextBraTS数据集，研究人员已经开发了多种多模态融合方法，如文本引导的分割网络和序列交叉注意力机制。这些方法在脑肿瘤分割任务中表现出显著的性能提升。此外，该数据集还激发了更多关于文本与影像融合的研究，为医学影像分析领域开辟了新的研究方向。

数据集最近研究