vlm-project-with-images-with-bbox-images-official

Hugging Face2025-08-24 更新2025-08-25 收录

下载链接：

https://huggingface.co/datasets/tungvu3196/vlm-project-with-images-with-bbox-images-official

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含患者信息、幻灯片数据、日期、可交付成果、备注、医生信息、图像及其边界框坐标等字段。数据集中的描述信息支持多种语言，包括中文、英文、越南语、法语、德语、韩语、日语等。数据集分为训练集和测试集，可用于机器学习模型的训练和评估。

创建时间：

2025-08-21

原始信息汇总

数据集概述

基本信息

数据集名称：vlm-project-with-images-with-bbox-images-official
存储位置：https://huggingface.co/datasets/tungvu3196/vlm-project-with-images-with-bbox-images-official
总下载大小：2,163,445,081 字节
总数据集大小：2,237,246,383.666 字节

数据划分

训练集（train）
- 样本数量：10,783
- 数据大小：1,963,031,793.25 字节
测试集（test）
- 样本数量：1,542
- 数据大小：274,214,590.416 字节

特征结构

数据集包含以下特征字段：

标识与元数据

No.（整数）
Patient ID（字符串）
Slide（字符串）
Start date（浮点数）
Doctor（字符串）
Status（字符串）
Remove Status（字符串）
__index_level_0__（整数）

医疗相关

Deliverable（字符串）
Notes（字符串）
Original（字符串）

图像数据

image（图像类型）
image_with_bboxes（图像类型）

坐标信息

Bbox coordinates normalized (X, Y, W, H)（字符串）

多语言问答对

问题字段（Q1-Q4）：

基础问题：Q1, Q2, Q3, Q4
多语言版本：越南语（vn）、法语（fr）、德语（de）、中文普通话（mandarin）、韩语（korean）、日语（japanese）、俄语（ru）、西班牙语（spanish）、泰语（thai）、印尼语（indo）、马来语（malay）、阿拉伯语（arab）、印地语（hindi）、土耳其语（turkish）

答案字段（A1-A4）：

基础答案：A1, A2, A3, A4
多语言版本：覆盖与问题相同的语言种类

外部链接

Google Drive Link（字符串）
rotated_link（字符串）

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，该数据集通过系统化采集患者病理切片图像及关联临床数据构建而成。构建过程整合了多源医疗记录，包括患者标识、诊断日期、医生注释及标准化边界框坐标，确保数据标注的精确性与一致性。图像数据与多语言问答对协同处理，形成结构化医疗视觉语言模型训练资源。

特点

该数据集的核心特征在于其多模态与多语言融合架构，涵盖原始医学图像、归一化边界框标注及跨语言问答文本。支持包括英语、中文、法语等十余种语言的平行翻译，强化了跨文化医疗场景的适用性。图像与文本的严格对齐为视觉-语言任务提供了高精度数据基础。

使用方法

该数据集适用于医疗视觉语言模型的训练与评估，尤其擅长病理图像理解与多语言问答任务。使用者可通过加载图像与对应标注字段，构建端到端的诊断辅助模型或跨语言检索系统。测试集可用于验证模型在未知数据上的泛化能力与临床实用性。

背景与挑战

背景概述

医学影像视觉语言模型数据集vlm-project-with-images-with-bbox-images-official由专业医学团队构建，专注于融合医学影像分析与多语言自然语言处理技术。该数据集通过整合患者影像数据与多语言标注信息，旨在推动跨语言医学视觉问答系统的发展。其核心研究问题在于建立影像区域与多语言文本描述之间的精准关联，为国际医疗协作提供标准化数据支持，对提升医学人工智能的跨文化应用能力具有重要价值。

当前挑战

该数据集面临医学影像区域标注的精确性挑战，要求边界框坐标与病理特征的毫米级对应；多语言医学术语的统一性难题，需确保六种语言问答案例的临床表述一致性。构建过程中需克服多中心数据整合的标准化困难，包括不同医疗机构的影像采集协议差异，以及涉及患者隐私数据脱敏处理的合规性要求，这些因素共同增加了数据集构建的技术复杂度。

常用场景

经典使用场景

在医学影像分析领域，该数据集通过提供带有标准化边界框标注的病理切片图像，为视觉-语言模型训练提供了多模态学习基础。其经典应用场景集中于医疗图像的区域定位与多语言文本描述的联合理解，支持模型学习医学视觉特征与临床诊断文本之间的语义关联。

衍生相关工作

基于该数据集衍生的经典工作包括多模态医学预训练模型MedVLP和跨语言医疗视觉问答系统MedQA-X。这些研究突破了传统单语言医疗AI的局限，开创了融合视觉定位与多语言文本生成的医疗人工智能新范式，推动了国际医疗知识共享的技术发展。

数据集最近研究