PubMedVision

Name: PubMedVision
Creator: FreedomAI
Published: 2024-06-27 01:32:33
License: 暂无描述

Hugging Face2024-06-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/PubMedVision

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大小在1M到10M之间的英语数据集，专注于问题回答和文本生成任务。它特别标记为GPT-4V、Vision、医学和生物学相关，包含两个主要配置文件，分别用于PubMedVision_Alignment_VQA和PubMedVision_InstructionTuning_VQA。

This is an English dataset with a size ranging from 1M to 10M, focusing on question answering and text generation tasks. It is specifically categorized under GPT-4V, Vision, medical and biological research domains, and consists of two primary configuration files dedicated to PubMedVision_Alignment_VQA and PubMedVision_InstructionTuning_VQA respectively.

提供机构：

FreedomAI

创建时间：

2024-06-25

原始信息汇总

数据集概述

基本信息

许可证：Apache-2.0
任务类别：
- 问答
- 文本生成
语言：英语
标签：
- GPT-4V
- Vision
- 医学
- 生物学
数据规模：1M<n<10M

配置信息

配置名称：
- PubMedVision_Alignment_VQA
- PubMedVision_InstructionTuning_VQA
数据文件：
- PubMedVision_Alignment_VQA.json
- PubMedVision_InstructionTuning_VQA.json

数据集详情

名称：PubMedVision
描述：PubMedVision是一个大规模的医学VQA数据集，从PubMed中提取高质量的图像-文本对，并使用GPT-4V进行格式化以提高质量。
数据量：
- PubMedVision_Alignment_VQA：647,031
- PubMedVision_InstructionTuning_VQA：647,031
- 总计：1,294,062

图像数据

文件：images_*.zip
解压方法： bash for ((i=0; i<20; i++)) do unzip -j images_$i.zip -d images/ & # wait patiently, it takes a while... done

引用

参考文献：

@misc{chen2024huatuogptvisioninjectingmedicalvisual, title={HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale}, author={Junying Chen and Ruyi Ouyang and Anningzhe Gao and Shunian Chen and Guiming Hardy Chen and Xidong Wang and Ruifei Zhang and Zhenyang Cai and Ke Ji and Guangjun Yu and Xiang Wan and Benyou Wang}, year={2024}, eprint={2406.19280}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2406.19280}, }

搜集汇总

数据集介绍

构建方式

PubMedVision数据集的构建基于PubMed中的高质量图像-文本对，通过GPT-4V模型对这些数据进行重新格式化，以提升其质量。数据集包含130万条医学视觉问答（VQA）数据，分为对齐VQA和指令调优VQA两部分，每部分各包含647,031条数据。此外，数据集还通过HuatuoGPT-Vision-7B模型对图像的身体部位和模态进行了标注，进一步丰富了数据的多模态信息。

特点

PubMedVision数据集的特点在于其大规模和高多样性，涵盖了广泛的医学领域视觉问答任务。数据集的图像-文本对经过精心筛选和格式化，确保了数据的准确性和一致性。此外，数据集还引入了多模态标注，如身体部位和模态信息，为医学多模态大语言模型（MLLMs）的训练提供了丰富的上下文信息。这些特点使得PubMedVision在提升医学领域多模态模型的性能方面具有显著优势。

使用方法

使用PubMedVision数据集时，用户可以通过解压缩提供的图像数据文件（`images_*.zip`）来获取图像数据。数据集的两个主要配置（Alignment VQA和Instruction Tuning VQA）分别适用于不同的任务场景。用户可以根据具体需求选择相应的配置进行模型训练或评估。此外，数据集的使用建议结合相关论文和GitHub资源，以充分理解其设计理念和应用场景。通过合理利用这些数据，研究人员可以显著提升医学多模态模型的视觉问答能力。

背景与挑战

背景概述

PubMedVision数据集由深圳大数据研究院与香港中文大学（深圳）的研究团队于2024年发布，旨在提升多模态大语言模型（MLLMs）在医学领域的应用能力。该数据集从PubMed中提取了高质量的图像-文本对，并利用GPT-4V进行数据重构，显著增强了数据的质量。PubMedVision包含130万条医学视觉问答（VQA）数据，分为对齐VQA和指令调优VQA两部分，涵盖了广泛的医学视觉知识。该数据集的发布为医学图像与文本的多模态研究提供了重要的资源，推动了医学人工智能的发展。

当前挑战

PubMedVision数据集在构建过程中面临了多方面的挑战。首先，医学图像与文本的匹配需要极高的精确度，以确保数据的准确性和可靠性。其次，数据集的规模庞大，处理和管理数百万条数据对计算资源和存储能力提出了极高的要求。此外，医学领域的专业性和复杂性使得数据标注和验证过程尤为困难，需要依赖专业的医学知识和先进的模型辅助。最后，如何确保数据集的多样性和代表性，以覆盖广泛的医学场景和疾病类型，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

PubMedVision数据集在医学视觉问答（VQA）领域具有广泛的应用，尤其是在医学图像与文本的多模态对齐任务中。通过从PubMed提取高质量的图像-文本对，并利用GPT-4V进行数据重构，该数据集为医学领域的多模态大语言模型（MLLMs）提供了丰富的训练资源。研究人员可以利用该数据集进行医学图像的自动标注、诊断辅助系统的开发以及医学知识的自动化问答系统构建。

衍生相关工作

基于PubMedVision数据集，研究人员已经开展了多项经典工作，例如HuatuoGPT-Vision模型的开发，该模型通过注入大规模的医学视觉知识，显著提升了多模态大语言模型在医学领域的表现。此外，该数据集还催生了一系列医学图像分析与文本生成的研究，如医学图像的自动标注、医学知识的自动化问答系统以及医学教育资源的智能化生成。这些工作不仅推动了医学人工智能技术的发展，也为未来的研究提供了重要的参考和基础。

数据集最近研究