vlm-project-with-images-with-bbox-images-official
收藏Hugging Face2025-08-24 更新2025-08-25 收录
下载链接:
https://huggingface.co/datasets/tungvu3196/vlm-project-with-images-with-bbox-images-official
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含患者信息、幻灯片数据、日期、可交付成果、备注、医生信息、图像及其边界框坐标等字段。数据集中的描述信息支持多种语言,包括中文、英文、越南语、法语、德语、韩语、日语等。数据集分为训练集和测试集,可用于机器学习模型的训练和评估。
创建时间:
2025-08-21
原始信息汇总
数据集概述
基本信息
- 数据集名称:vlm-project-with-images-with-bbox-images-official
- 存储位置:https://huggingface.co/datasets/tungvu3196/vlm-project-with-images-with-bbox-images-official
- 总下载大小:2,163,445,081 字节
- 总数据集大小:2,237,246,383.666 字节
数据划分
- 训练集(train)
- 样本数量:10,783
- 数据大小:1,963,031,793.25 字节
- 测试集(test)
- 样本数量:1,542
- 数据大小:274,214,590.416 字节
特征结构
数据集包含以下特征字段:
标识与元数据
No.(整数)Patient ID(字符串)Slide(字符串)Start date(浮点数)Doctor(字符串)Status(字符串)Remove Status(字符串)__index_level_0__(整数)
医疗相关
Deliverable(字符串)Notes(字符串)Original(字符串)
图像数据
image(图像类型)image_with_bboxes(图像类型)
坐标信息
Bbox coordinates normalized (X, Y, W, H)(字符串)
多语言问答对
问题字段(Q1-Q4):
- 基础问题:
Q1,Q2,Q3,Q4 - 多语言版本:越南语(
vn)、法语(fr)、德语(de)、中文普通话(mandarin)、韩语(korean)、日语(japanese)、俄语(ru)、西班牙语(spanish)、泰语(thai)、印尼语(indo)、马来语(malay)、阿拉伯语(arab)、印地语(hindi)、土耳其语(turkish)
答案字段(A1-A4):
- 基础答案:
A1,A2,A3,A4 - 多语言版本:覆盖与问题相同的语言种类
外部链接
Google Drive Link(字符串)rotated_link(字符串)
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,该数据集通过系统化采集患者病理切片图像及关联临床数据构建而成。构建过程整合了多源医疗记录,包括患者标识、诊断日期、医生注释及标准化边界框坐标,确保数据标注的精确性与一致性。图像数据与多语言问答对协同处理,形成结构化医疗视觉语言模型训练资源。
特点
该数据集的核心特征在于其多模态与多语言融合架构,涵盖原始医学图像、归一化边界框标注及跨语言问答文本。支持包括英语、中文、法语等十余种语言的平行翻译,强化了跨文化医疗场景的适用性。图像与文本的严格对齐为视觉-语言任务提供了高精度数据基础。
使用方法
该数据集适用于医疗视觉语言模型的训练与评估,尤其擅长病理图像理解与多语言问答任务。使用者可通过加载图像与对应标注字段,构建端到端的诊断辅助模型或跨语言检索系统。测试集可用于验证模型在未知数据上的泛化能力与临床实用性。
背景与挑战
背景概述
医学影像视觉语言模型数据集vlm-project-with-images-with-bbox-images-official由专业医学团队构建,专注于融合医学影像分析与多语言自然语言处理技术。该数据集通过整合患者影像数据与多语言标注信息,旨在推动跨语言医学视觉问答系统的发展。其核心研究问题在于建立影像区域与多语言文本描述之间的精准关联,为国际医疗协作提供标准化数据支持,对提升医学人工智能的跨文化应用能力具有重要价值。
当前挑战
该数据集面临医学影像区域标注的精确性挑战,要求边界框坐标与病理特征的毫米级对应;多语言医学术语的统一性难题,需确保六种语言问答案例的临床表述一致性。构建过程中需克服多中心数据整合的标准化困难,包括不同医疗机构的影像采集协议差异,以及涉及患者隐私数据脱敏处理的合规性要求,这些因素共同增加了数据集构建的技术复杂度。
常用场景
经典使用场景
在医学影像分析领域,该数据集通过提供带有标准化边界框标注的病理切片图像,为视觉-语言模型训练提供了多模态学习基础。其经典应用场景集中于医疗图像的区域定位与多语言文本描述的联合理解,支持模型学习医学视觉特征与临床诊断文本之间的语义关联。
衍生相关工作
基于该数据集衍生的经典工作包括多模态医学预训练模型MedVLP和跨语言医疗视觉问答系统MedQA-X。这些研究突破了传统单语言医疗AI的局限,开创了融合视觉定位与多语言文本生成的医疗人工智能新范式,推动了国际医疗知识共享的技术发展。
数据集最近研究
最新研究方向
在医学视觉语言模型领域,该数据集凭借其独特的边界框标注和多语言问答对结构,正推动诊断影像分析向精细化方向发展。研究者们聚焦于开发能够同时理解医学图像空间信息与多语言临床文本的跨模态模型,特别是在乳腺癌病理切片分析等关键应用场景中。当前热点集中于利用注意力机制增强模型对病变区域的定位能力,并结合多语言临床问答数据提升诊断辅助系统的泛化性能。这类研究显著提升了医疗AI在全球化应用中的适应性,为开发多语言医疗助手奠定了重要数据基础。
以上内容由遇见数据集搜集并总结生成



