biomed-VQA-benchmark
收藏Hugging Face2024-12-13 更新2024-12-14 收录
下载链接:
https://huggingface.co/datasets/AdaptLLM/biomed-VQA-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该项目包含用于评估多模态大语言模型(MLLMs)在生物医学领域视觉指令任务的数据集。数据集包括SLAKE、VQA_RAD、PathVQA和PMC-VQA等配置,用于测试和评估模型在不同领域的表现。数据集通过后训练进行领域适应,重点关注数据合成、训练管道和任务评估。
This project contains a dataset dedicated to evaluating Multimodal Large Language Models (MLLMs) on visual instruction tasks in the biomedical domain. The dataset includes benchmark datasets such as SLAKE, VQA_RAD, PathVQA, and PMC-VQA, which are utilized to test and assess model performance across diverse domains. This dataset conducts domain adaptation through post-training, with core emphases on data synthesis, training pipelines, and task evaluation.
创建时间:
2024-12-10
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 视觉问答 (Visual Question Answering)
- 语言: 英语 (en)
- 标签: 视觉 (Vision), 医学 (medical), 生物学 (biology)
数据集配置
-
配置名称: SLAKE
- 数据文件:
- 分割: test
- 路径: SLAKE/data-*.arrow
- 数据文件:
-
配置名称: VQA_RAD
- 数据文件:
- 分割: test
- 路径: vqa_rad/data-*.arrow
- 数据文件:
-
配置名称: PathVQA
- 数据文件:
- 分割: test
- 路径: pathvqa/data-*.arrow
- 数据文件:
-
配置名称: PMC-VQA
- 数据文件:
- 分割: test
- 路径: pmc_vqa/data-*.arrow
- 数据文件:
数据集用途
该数据集用于评估多模态大语言模型 (MLLMs) 在生物医学领域的性能。具体包括以下任务:
- 数据合成: 使用开源模型生成多样化的视觉指令任务。
- 训练管道: 采用单阶段训练管道以增强任务多样性。
- 任务评估: 在生物医学和食品两个领域进行实验,评估不同来源和规模的 MLLMs 性能。
相关资源
- 模型:
- AdaMLLM-med-2B: 基于 Qwen2-VL-2B-Instruct 模型,用于生物医学领域。
- AdaMLLM-food-2B: 基于 Qwen2-VL-2B-Instruct 模型,用于食品领域。
- AdaMLLM-med-8B: 基于 open-llava-next-llama3-8b 模型,用于生物医学领域。
- AdaMLLM-food-8B: 基于 open-llava-next-llama3-8b 模型,用于食品领域。
- AdaMLLM-med-11B: 基于 Llama-3.2-11B-Vision-Instruct 模型,用于生物医学领域。
- AdaMLLM-food-11B: 基于 Llama-3.2-11B-Vision-Instruct 模型,用于食品领域。
数据加载
可以使用 datasets 库加载数据集:
python
from datasets import load_dataset
选择任务名称
task_name = SLAKE # 选项: SLAKE, VQA_RAD, PathVQA, PMC-VQA
加载所选任务的数据集
data = load_dataset(AdaptLLM/biomed-VQA-benchmark, task_name, split=test)
print(list(data)[0])
引用
如果该数据集对您的工作有帮助,请引用以下内容: bibtex @article{adamllm, title={On Domain-Specific Post-Training for Multimodal Large Language Models}, author={Cheng, Daixuan and Huang, Shaohan and Zhu, Ziyu and Zhang, Xintong and Zhao, Wayne Xin and Luan, Zhongzhi and Dai, Bo and Zhang, Zhenliang}, journal={arXiv preprint arXiv:2411.19930}, year={2024} }
搜集汇总
数据集介绍

构建方式
biomed-VQA-benchmark数据集的构建基于多模态大语言模型(MLLMs)的领域适应性研究,通过后训练方法实现。具体而言,研究团队利用开源模型开发了一个视觉指令合成器,该合成器能够从领域特定的图像-文本对中生成多样化的视觉指令任务。与传统的手动规则、GPT-4及GPT-4V生成的任务相比,该合成器生成的任务在提升MLLMs的领域特定性能方面表现更为优异。此外,研究采用了单阶段训练管道,以增强任务的多样性,从而更有效地进行领域特定的后训练。
使用方法
使用biomed-VQA-benchmark数据集时,用户可以通过HuggingFace的`datasets`库直接加载数据。具体操作包括选择特定的任务名称(如SLAKE、VQA_RAD等),并指定数据集的分割(如测试集)。此外,数据集的加载脚本已嵌入到推理代码中,用户可以直接运行相关命令来评估多模态大语言模型(MLLMs)的性能。评估过程中,用户可以选择不同的模型类型(如LLaVA-v1.6、Qwen2-VL、Llama-3.2-Vision-Instruct),并根据需要调整CUDA设备以实现数据并行处理。评估结果将存储在指定的目录中,便于后续分析和应用。
背景与挑战
背景概述
biomed-VQA-benchmark数据集由AdaptLLM团队创建,旨在评估多模态大语言模型(MLLMs)在生物医学领域的适应性。该数据集的核心研究问题是通过视觉指令任务的合成与评估,提升MLLMs在特定领域的表现。主要研究人员包括Cheng Daixuan、Huang Shaohan等,研究机构为AdaptLLM。该数据集的创建时间可追溯至2024年,其影响力在于为生物医学领域的视觉问答任务提供了标准化的评估基准,推动了多模态模型在医疗领域的应用与发展。
当前挑战
biomed-VQA-benchmark数据集面临的挑战主要集中在两个方面。首先,生物医学领域的视觉问答任务具有高度专业性和复杂性,要求模型具备深入的领域知识和对医学图像的精准理解。其次,数据集的构建过程中,如何有效合成多样化的视觉指令任务,并确保其质量与实用性,是一个技术难点。此外,评估多模态模型在不同规模和来源下的表现,也需要设计合理的实验框架和评估标准。
常用场景
经典使用场景
biomed-VQA-benchmark数据集的经典使用场景主要集中在生物医学领域的视觉问答任务中。该数据集通过整合多种生物医学图像与相应的问答对,为多模态大语言模型(MLLMs)提供了丰富的训练和评估资源。研究者可以利用该数据集对模型进行微调,以提升其在生物医学图像理解与问答任务中的表现,尤其是在医学影像分析和生物学图像解读等场景中。
解决学术问题
biomed-VQA-benchmark数据集解决了生物医学领域中视觉问答任务的学术研究问题。通过提供高质量的生物医学图像与问答对,该数据集为研究者提供了一个标准化的评估基准,帮助他们验证和比较不同模型的性能。这不仅推动了多模态学习技术的发展,还为生物医学领域的智能化应用提供了理论支持和技术基础。
实际应用
在实际应用中,biomed-VQA-benchmark数据集可用于开发和优化生物医学领域的智能问答系统。例如,在医学影像诊断中,医生可以通过该系统快速获取图像的相关信息,辅助诊断决策。此外,该数据集还可应用于生物学研究中,帮助研究人员从复杂的生物图像中提取关键信息,提升研究效率和准确性。
数据集最近研究
最新研究方向
在生物医学领域,视觉问答(VQA)技术的应用正日益受到关注,biomed-VQA-benchmark数据集为此提供了重要的基准。最新的研究方向集中在通过后训练(post-training)方法对多模态大语言模型(MLLMs)进行领域适应性调整。研究者们通过数据合成技术,利用开源模型生成多样化的视觉指令任务,显著提升了模型在生物医学领域的性能。此外,单阶段训练管道的引入,进一步增强了任务的多样性,使得模型在生物医学和食品等特定领域的应用更加广泛和深入。这些研究不仅推动了VQA技术在生物医学领域的实际应用,也为多模态模型的领域适应性研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



