brain_data_test_demo_label_v1

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/medicaldatahf/brain_data_test_demo_label_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与医疗相关的数据，涵盖患者ID、幻灯片、交付物、笔记、医生信息以及多语言问答字段。数据集还包含图像相关字段，如原始图像、带边界框的图像、掩膜和处理结果图像。数据集共包含1,542个样本，总大小约为771 MB，仅包含一个训练集划分。

This dataset contains medical-related data, covering fields such as patient ID, slides, deliverables, notes, physician information, and multilingual question-answering fields. The dataset also includes image-related fields, such as raw images, images with bounding boxes, masks, and processed result images. The dataset contains a total of 1,542 samples, with a total size of approximately 771 MB, and only includes one training set split.

创建时间：

2026-02-25

原始信息汇总

数据集概述

数据集基本信息

数据集名称: brain_data_test_demo_label_v1
发布者: medicaldatahf
数据来源: https://huggingface.co/datasets/medicaldatahf/brain_data_test_demo_label_v1

数据集结构与内容

数据格式: 表格数据与图像数据
数据总量: 771,144,301.75 字节
下载大小: 764,163,497 字节
样本数量: 1,542 条
数据划分: 仅包含训练集（train）

数据特征（列）说明

数据集包含以下主要特征列：

标识与元数据列

No.: 序号（整数）
Patient ID: 患者ID（字符串）
Slide: 玻片标识（字符串）
Start date: 开始日期（空值）
Deliverable: 交付物（字符串）
Notes: 备注（字符串）
Doctor: 医生（字符串）
Status: 状态（字符串）
my_id: 自定义ID（字符串）
__index_level_0__: 索引级别（整数）
Column 9: 第9列（浮点数）

图像数据列

image: 原始图像
image_with_bboxes: 带边界框的图像
image_with_MTA_mask: 带MTA掩膜的图像
image_with_GCA_mask: 带GCA掩膜的图像
image_with_Koedam_mask: 带Koedam掩膜的图像
mask: 掩膜图像
result: 结果图像

坐标与链接列

Bbox coordinates normalized (X, Y, W, H): 归一化边界框坐标（字符串）
Original: 原始链接（字符串）
Google Drive Link: Google云端硬盘链接（字符串）
rotated_link: 旋转链接（字符串）

问题与答案列（多语言）

问题列: Q1, Q2, Q3, Q4
答案列: A1, A2, A3, A4
多语言翻译列:
- 越南语（vn）: Q1_vn, Q2_vn, Q3_vn, Q4_vn, A2_vn, A4_vn, vn, vi
- 法语（fr）: Q1_fr, Q2_fr, Q3_fr, Q4_fr, A2_fr, A4_fr, fr
- 德语（de）: Q1_de, Q2_de, Q3_de, Q4_de, A2_de, A4_de, de
- 普通话（mandarin）: Q1_mandarin, Q2_mandarin, Q3_mandarin, Q4_mandarin, A2_mandarin, A4_mandarin, mandarin
- 韩语（korean）: Q1_korean, Q2_korean, Q3_korean, Q4_korean, A2_korean, A4_korean, korean
- 日语（japanese）: Q1_japanese, Q2_japanese, Q3_japanese, Q4_japanese, A2_japanese, A4_japanese, japanese

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在神经影像学领域，数据集的质量直接关系到模型诊断的精确性。brain_data_test_demo_label_v1的构建过程体现了严谨的医学数据采集标准，它整合了多模态脑部影像数据，包括原始图像、标注框坐标及多语言问答对。数据来源于真实的临床病例，通过专业医师的标注与验证，确保了每个样本的医学可靠性。构建过程中，数据经过归一化处理，并生成了多种掩膜图像，如MTA、GCA和Koedam掩膜，为后续的深度学习任务提供了结构化的输入。

特点

该数据集的特点在于其丰富的多语言标注与多维特征表示。除了基础的影像数据外，还包含了针对四个问题的多语言问答内容，覆盖越南语、法语、德语、中文、韩语和日语，这为跨语言医学影像分析研究提供了独特资源。数据集提供了归一化的边界框坐标、多种掩膜图像以及处理后的结果图像，使得研究者能够进行细粒度的病灶定位与分割。其结构化的特征设计支持从分类到分割的多种机器学习任务，增强了数据集的实用性与扩展性。

使用方法

使用该数据集时，研究者可依托其多模态特性开展广泛的医学影像分析实验。数据集以标准的表格与图像格式存储，可通过HuggingFace平台直接加载，便于在深度学习框架中进行预处理与模型训练。用户可以利用提供的掩膜图像进行语义分割任务，或结合多语言问答对开发视觉问答模型。数据集的划分明确，训练集包含1542个样本，支持端到端的模型训练与评估，为脑部疾病诊断的算法开发提供了坚实的基础设施。

背景与挑战

背景概述

在神经影像学与医学人工智能交叉领域，brain_data_test_demo_label_v1数据集应运而生，旨在推动脑部医学图像分析与诊断辅助系统的研究。该数据集整合了多模态脑部影像数据，涵盖患者标识、切片图像、标注框坐标及多语言问答注释，其结构设计反映了对脑部病变区域检测与跨语言医学知识迁移的核心关注。通过纳入越南语、法语、德语、汉语、韩语、日语等多语言文本字段，该数据集致力于支持全球化医疗环境下的智能诊断模型开发，为脑疾病如肿瘤、血管异常的自动化识别与语义理解提供关键数据基础。

当前挑战

该数据集致力于解决脑部医学图像中病变区域的精准定位与跨语言临床问答理解的双重挑战，其核心问题在于如何实现高精度分割与多语言语义对齐。构建过程中面临诸多困难：医学影像标注依赖专业医师知识，导致标注成本高昂且易引入主观偏差；多语言问答数据的收集与对齐需克服术语不一致性与文化语境差异；此外，数据隐私保护与脱敏处理要求严格，增加了数据合规性管理的复杂度。这些挑战共同制约了数据集的规模化扩展与模型泛化能力提升。

常用场景

经典使用场景

在神经影像学与病理学交叉领域，brain_data_test_demo_label_v1数据集为脑部医学图像分析提供了关键资源。该数据集整合了患者脑部切片图像、多语言标注及边界框坐标，经典应用场景集中于训练深度学习模型进行脑部病变区域的自动检测与分割。通过图像与结构化标注的配对，研究者能够构建精准的视觉识别系统，用于识别脑组织中的异常结构，为后续诊断提供数据驱动的技术支撑。

实际应用

在实际医疗场景中，该数据集支持脑部疾病的辅助诊断系统开发。基于图像分割与多语言标注，临床医生可利用模型快速定位病变区域，如脑萎缩或肿瘤，并结合多语言问答信息进行跨语言病例分析。这增强了医疗资源的可及性，尤其适用于多语言环境下的远程医疗与医学教育，提升了诊断效率与准确性。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于多模态融合的脑图像分割算法、跨语言医疗问答系统以及自动化病理报告生成模型。这些工作利用数据集的图像与标注对，推动了深度学习在神经影像分析中的前沿探索，为脑疾病诊断提供了创新方法，并促进了国际学术界在医疗人工智能领域的合作与知识共享。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集