Medical Complex Vision Question Answering Dataset (MeCoVQA)

Name: Medical Complex Vision Question Answering Dataset (MeCoVQA)
Creator: 百度公司、中国农业大学、自动化研究所、中国科学院、北京大学
Published: 2024-12-12 21:41:35
License: 暂无描述

arXiv2024-12-12 更新2024-12-14 收录

下载链接：

https://github.com/ShawnHuang497/MedPLIB

下载链接

链接失效反馈

官方服务：

资源简介：

MeCoVQA数据集是由百度公司、中国农业大学、自动化研究所、中国科学院和北京大学联合创建的，旨在支持复杂医学影像问答和图像区域理解的多模态数据集。该数据集包含8种模态，共计31万对问答数据，涵盖了医学影像的详细信息和语义描述。创建过程中，首先将图像的分割掩码转换为结构化元数据，然后通过大型语言模型生成图像描述，最终整合生成复杂的问答数据。MeCoVQA数据集主要应用于医学领域的多模态大语言模型研究，旨在提升医学影像的像素级理解和问答能力，解决医学影像分析中的细粒度问题。

The MeCoVQA dataset is a multimodal dataset jointly developed by Baidu, China Agricultural University, Institute of Automation, Chinese Academy of Sciences, and Peking University, designed to support complex medical visual question answering and image region understanding tasks. This dataset contains 310,000 question-answer pairs across 8 modalities, covering detailed information and semantic descriptions of medical images. During the dataset curation process, image segmentation masks were first converted into structured metadata, followed by the generation of image captions via large language models (LLMs), and finally complex question-answer pairs were generated through integration. The MeCoVQA dataset is primarily applied to multimodal large language model research in the medical domain, with the objective of enhancing pixel-level understanding and question-answering capabilities of medical images, and addressing fine-grained challenges in medical image analysis.

提供机构：

百度公司、中国农业大学、自动化研究所、中国科学院、北京大学

创建时间：

2024-12-12

搜集汇总

数据集介绍

构建方式

MeCoVQA数据集的构建过程结合了人工处理与大型语言模型（LLM）的协作。首先，从SAMed2D-20M数据集中随机抽取10万张带有实例掩码的医学图像，并手动生成每张图像的实例级元信息，包括图像的模态、扫描区域、方向及对象实例。随后，使用LLM生成图像的全局描述，并通过人工审核确保描述的质量。最后，基于元信息和全局描述，利用LLM生成复杂的问答数据，涵盖多种医学图像理解和像素级分析任务。

特点

MeCoVQA数据集具有多模态特性，涵盖了8种不同的医学成像模态，总计包含31万对问答数据。该数据集不仅支持图像级别的问答任务，还引入了像素级别的问答和像素定位任务，能够为医学多模态大语言模型的研究提供丰富的训练和评估资源。此外，MeCoVQA数据集通过结合人工与AI的协作，确保了数据的高质量和多样性，适用于复杂医学图像理解和分析任务。

使用方法

MeCoVQA数据集可用于训练和评估医学多模态大语言模型，特别是支持像素级理解和问答的模型。研究者可以通过该数据集进行视觉问答（VQA）、区域问答（RQA）以及像素级定位任务的训练和测试。使用时，研究者可以根据任务需求选择不同的子集，如MeCoVQA-C用于复杂问答，MeCoVQA-R用于区域问答，MeCoVQA-G用于像素级定位。通过结合多模态输入和输出，MeCoVQA数据集能够帮助模型在医学图像分析中实现更精细的理解和推理能力。

背景与挑战

背景概述

近年来，多模态大语言模型（MLLM）在生物医学领域取得了显著进展，展示了开发智能生物医学助手的可行性。然而，现有的生物医学MLLM主要集中在图像级别的理解，且仅限于文本指令的交互，限制了其能力边界和使用灵活性。为解决这一问题，百度公司、中国农业大学、中国科学院自动化研究所和北京大学等机构的研究人员于2024年提出了MedPLIB模型，该模型具备像素级别的理解能力，支持视觉问答（VQA）、任意像素级别的提示（如点、边界框和自由形状）以及像素级别的定位。为推动生物医学MLLM的研究，研究团队引入了Medical Complex Vision Question Answering Dataset（MeCoVQA），该数据集包含8种模态，用于复杂的医学图像问答和图像区域理解。MeCoVQA的推出为生物医学领域的多模态模型研究提供了重要的数据支持，推动了像素级别理解的进一步发展。

当前挑战

MeCoVQA数据集的构建面临两大主要挑战。首先，数据稀缺性问题。由于隐私法规和高昂的标注成本，像素级别和复杂VQA数据的公开可用性极为有限，现有的VQA数据集通常仅支持图像级别的问答，缺乏像素级别的详细信息。其次，模型架构的复杂性。医学VQA任务需要结合空间理解（像素级别理解）和知识问答，这要求模型在有限的参数空间内平衡多任务学习，同时具备高度的架构灵活性。此外，MeCoVQA的构建过程中，如何通过大规模语言模型（LLM）生成高质量的复杂问答数据，并确保数据的准确性和多样性，也是一项极具挑战性的任务。

常用场景

经典使用场景

MeCoVQA数据集的经典使用场景主要集中在复杂医学图像的视觉问答任务中。该数据集包含了多种医学成像模态，如CT、MRI、超声等，能够支持像素级和图像级的问答任务。通过结合多模态数据和复杂的医学图像理解任务，MeCoVQA为研究人员提供了一个强大的工具，用于开发和评估多模态大语言模型（MLLM）在医学领域的应用。

解决学术问题

MeCoVQA数据集解决了医学领域中多模态数据稀缺和复杂视觉问答任务的挑战。传统的医学VQA数据集通常仅限于图像级的问答，而MeCoVQA通过引入像素级的问答任务，填补了这一空白。这不仅推动了医学图像理解的研究，还为开发更精确的医学辅助系统提供了数据支持，具有重要的学术意义和应用价值。

衍生相关工作

MeCoVQA数据集的发布催生了一系列相关研究工作，特别是在多模态医学图像理解和像素级视觉问答领域。基于该数据集，研究人员开发了多种先进的MLLM模型，如MedPLIB，这些模型在多个医学视觉语言任务中取得了显著的性能提升。此外，MeCoVQA还推动了医学图像分割和像素级分析的研究，为未来的医学AI应用奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集