biomed-visual-instructions

Hugging Face2024-12-15 更新2024-12-16 收录

下载链接：

https://huggingface.co/datasets/AdaptLLM/biomed-visual-instructions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于多模态大语言模型（MLLMs）的领域适应性后训练，特别是在生物医学和食品领域。数据集包括图像描述对和合成的视觉任务，这些数据是通过视觉指令合成器生成的。数据集的目的是通过单一阶段的后训练过程来增强MLLMs在特定领域的性能。数据集包括三个主要部分：image_caption_pairs.json（包含500K图像描述对），synthetic_visual_tasks.json（包含144K合成指令-响应对），以及image_caption_and_synthetic_task.json（用于重现单一阶段领域特定后训练，包含500K示例）。

This dataset is intended for domain-adaptive post-training of multimodal large language models (MLLMs), specifically targeting the biomedical and food domains. It includes image-caption pairs and synthetic visual tasks, which are generated via a visual instruction synthesizer. The goal of this dataset is to enhance the domain-specific performance of MLLMs through a single-stage post-training process. The dataset consists of three main components: 1. `image_caption_pairs.json`: containing 500K image-caption pairs; 2. `synthetic_visual_tasks.json`: containing 144K synthetic instruction-response pairs; 3. `image_caption_and_synthetic_task.json`: used for reproducing single-stage domain-specific post-training, including 500K instances.

创建时间：

2024-12-05

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 视觉问答
- 图像到文本
语言: 英语
标签:
- 视觉
- 医学
- 生物学
数据集大小: 1M < n < 10M

配置信息

配置名称: image_caption_and_synthetic_task
- 数据文件: image_caption_and_synthetic_task.json
配置名称: image_caption_pairs
- 数据文件: image_caption_pairs.json
配置名称: synthetic_visual_tasks
- 数据文件: synthetic_visual_tasks.json

数据集描述

该数据集用于多模态大语言模型（MLLMs）的领域适应性后训练，特别是针对生物医学领域的视觉指令。数据集包含以下内容：

image_caption_pairs.json: 从PubMedVision数据集中提取的50万张图像-标题对。
synthetic_visual_tasks.json: 基于上述图像-标题对生成的14.4万条合成指令-响应对。
image_caption_and_synthetic_task.json: 包含图像标题任务和合成视觉指令任务，总计50万条数据，用于单阶段领域特定后训练。

数据生成

使用视觉指令合成器生成基于图像-标题对的视觉指令任务，结合原始的图像标题任务，用于训练多模态大语言模型。

数据下载

设置依赖项： bash pip install "huggingface_hub[cli]"
下载文本数据： bash REPO="AdaptLLM/biomed-visual-instructions" LOCAL_DIR="./biomed-visual-instructions" FILE="image_caption_and_synthetic_task.json" huggingface-cli download --resume-download ${REPO} ${FILE} --local-dir ${LOCAL_DIR} --repo-type dataset
下载图像数据： bash REPO="FreedomIntelligence/PubMedVision" huggingface-cli download --resume-download ${REPO} --local-dir ${LOCAL_DIR} --repo-type dataset --include "images_*.zip"
解压下载的图像： bash cd ${LOCAL_DIR} for ((i=0; i<20; i++)) do unzip -j images_$i.zip -d images/ & done

搜集汇总

数据集介绍

构建方式

该数据集通过利用开源模型开发的视觉指令合成器，基于领域特定的图像-标题对生成多样化的视觉指令任务。具体而言，数据集从PubMedVision中提取图像-标题对，并通过一致性过滤器生成144K的合成指令-响应对。此外，数据集还包括500K的图像-标题对，这些数据共同构成了用于单阶段领域特定后训练的完整数据集。

使用方法

用户可以通过HuggingFace平台下载该数据集，并使用提供的代码进行数据处理和模型训练。数据集包含三个主要配置文件：image_caption_pairs.json、synthetic_visual_tasks.json和image_caption_and_synthetic_task.json。用户可以根据需求选择合适的配置文件进行下载和使用，结合图像数据进行多模态大语言模型的后训练，以提升模型在生物医学领域的性能。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）领域，领域适应性研究日益受到关注。biomed-visual-instructions数据集由Cheng Daixuan等人于2024年创建，旨在通过后训练方法提升MLLMs在生物医学领域的性能。该数据集的核心研究问题是如何通过数据合成、训练管道优化和任务评估来实现领域特定的MLLMs适应性。研究团队利用开源模型开发了视觉指令合成器，生成了多样化的视觉指令任务，并通过单阶段训练管道增强了任务多样性。该数据集不仅推动了生物医学领域的视觉问答和图像到文本任务的发展，还为其他领域的MLLMs适应性研究提供了宝贵的参考。

当前挑战

biomed-visual-instructions数据集在构建过程中面临多项挑战。首先，数据合成过程中需要确保生成的视觉指令任务具有高度的多样性和领域相关性，这要求合成器在处理图像-文本对时具备高精度和一致性。其次，单阶段训练管道的实施需要克服传统两阶段训练中的复杂性和资源消耗问题，确保训练效率和模型性能的平衡。此外，任务评估阶段需要在不同规模和来源的MLLMs上进行广泛实验，以验证其在生物医学领域的实际应用效果。这些挑战不仅涉及技术层面的优化，还包括对数据质量和模型鲁棒性的严格要求。

常用场景

经典使用场景

在生物医学领域，biomed-visual-instructions数据集的经典使用场景主要体现在视觉问答（Visual Question Answering, VQA）和图像到文本生成任务中。该数据集通过结合图像与文本指令，能够有效提升多模态大语言模型（MLLMs）在生物医学领域的特定任务表现。例如，研究人员可以利用该数据集训练模型，使其能够根据医学图像生成准确的描述或回答相关问题，从而在医学诊断、药物研发等场景中发挥重要作用。

解决学术问题

biomed-visual-instructions数据集解决了多模态大语言模型在生物医学领域中的适应性问题。通过提供高质量的图像-文本对和合成任务，该数据集帮助模型在特定领域内进行有效的后训练，从而提升了模型在生物医学任务中的表现。这一进展不仅推动了多模态学习的研究，还为解决实际医学问题提供了新的技术手段，具有重要的学术价值和应用前景。

实际应用

在实际应用中，biomed-visual-instructions数据集可广泛应用于医学图像分析、疾病诊断和药物研发等领域。例如，医生可以通过该数据集训练的模型，快速获取医学图像的详细信息，辅助诊断决策；制药公司则可以利用该模型分析复杂的生物医学图像，加速新药的研发进程。此外，该数据集还可用于医学教育，帮助学生更好地理解复杂的医学图像。

数据集最近研究