five

ABC-VG-Instruct

收藏
github2025-03-06 更新2025-03-08 收录
下载链接:
https://github.com/TIGER-AI-Lab/ABC
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于多模态微调的自定义数据集,包含每张图像的多个指令,每个指令对应图像的不同方面。

A custom dataset for multimodal fine-tuning that contains multiple instructions for each image, with each instruction corresponding to a distinct aspect of the image.
创建时间:
2025-02-27
原始信息汇总

数据集概述

数据集名称

ABC: Achieving Better Control of Multimodal Embeddings using VLMs

数据集描述

ABC是一个开源的多模态嵌入模型,使用视觉语言模型主干网络深度整合图像特征与自然语言指令。

数据集特点

  • 提供对图像在嵌入中表示的最大控制。
  • 经过预训练,能够生成捕获微妙差异的嵌入。
  • 在MSCOCO图像到文本检索上实现最佳尺寸性能,并在大规模多模态嵌入基准的零样本分类和VQA任务上表现最佳。

模型

  • ABC-Qwen2VL-Instruct: 支持指令,基于ABC-Qwen2VL-Pretrain,训练数据集为TIGER-Lab/ABC-VG-Instruct。
  • ABC-Qwen2VL-Pretrain: 不支持指令,基于Qwen2VL-Instruct,训练数据集为TIGER-Lab/ABC-Pretraining-Data。

数据集

  • ABC-VG-Instruct: 用于多模态微调的自定义数据集,包含每个图像的多个指令,对应图像的不同方面。
  • ABC-Pretrain: 包含挖掘负样本的多模态预训练数据集。

快速开始

  • 安装依赖:git clone $pip install -r requirements.txt
  • 开始生成多模态嵌入:python -i ./quick_start.py

性能表现

  • 零样本性能图表 results

训练

  • 数据量较大,正在探索最佳分发方式。

控制基准(CtrlBench)

  • 用于测量模型如何融合视觉和自然语言特征的基准。

引用

bibtex @misc{schneider2025abcachievingbettercontrol, title={ABC: Achieving Better Control of Multimodal Embeddings using VLMs}, author={Benjamin Schneider and Florian Kerschbaum and Wenhu Chen}, year={2025}, eprint={2503.00329}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.00329}, }

搜集汇总
数据集介绍
main_image_url
构建方式
ABC-VG-Instruct数据集的构建采取自定义数据集的方式,旨在为多模态微调提供专门的数据集。该数据集包含每张图像的多个指令,每个指令对应图像的不同方面。通过这种方式,数据集能够覆盖图像的多样性和复杂性,从而为模型提供丰富的学习样本。
使用方法
使用ABC-VG-Instruct数据集首先需要安装相关依赖,通过克隆GitHub仓库并安装所需的Python包即可开始。数据集可通过Hugging Face的接口进行加载,用户可以轻松地进行多模态嵌入的制作。此外,数据集包含了预训练和微调所需的所有信息,便于研究者快速开展相关实验。
背景与挑战
背景概述
ABC-VG-Instruct数据集,由TIGER-Lab团队于2025年开发,旨在通过使用视觉语言模型主干网络,深入整合图像特征与自然语言指令,实现对图像在嵌入中表示的最大化控制。该数据集由Benjamin Schneider、Florian Kerschbaum和Wenhu Chen等研究人员构建,其核心研究问题是提升多模态嵌入模型对图像表示的控制能力,对相关领域如视觉问答、图像检索等产生了显著影响。
当前挑战
数据集构建过程中的挑战主要在于如何有效处理大规模图像数据,以及如何设计能够真正融合视觉与自然语言特征的基准测试。ABC-VG-Instruct数据集包含了针对每张图像的多个指令,每个指令对应图像的不同方面,这对于模型训练提出了更高的要求。同时,构建的`CtrlBench`基准测试旨在衡量模型在输出真正多模态嵌入方面的能力,这对于现有任务来说是一个新的挑战。
常用场景
经典使用场景
在多模态嵌入模型的研发与应用领域,ABC-VG-Instruct数据集提供了一个独特的视角。该数据集支持用户利用自然语言指令,细致地控制图像在嵌入空间中的表示方式。其经典使用场景主要集中于图像问答(VQA)任务,模型通过学习图像与自然语言指令之间的复杂交互,以准确响应用户的具体查询需求。
解决学术问题
ABC-VG-Instruct数据集的引入,有效解决了多模态任务中,如何精确捕捉图像与文本之间细微差异的学术难题。它通过大量的困难样本预训练,使得模型能够生成高质量且符合用户指令的嵌入向量,进而在零样本分类和VQA任务中取得领先性能,对于提升多模态模型的智能水平具有重要意义。
实际应用
在实际应用中,ABC-VG-Instruct数据集的应用场景广泛,涵盖了图像搜索、智能推荐系统、内容审核等多个领域。通过深度整合图像特征与自然语言指令,该数据集使得模型能够更好地理解用户的意图,从而提供更为精准和个性化的服务。
数据集最近研究
最新研究方向
ABC-VG-Instruct数据集近期研究聚焦于实现更佳的多模态嵌入控制,采用视觉语言模型(VLMs)作为主干网络以深度整合图像特征与自然语言指令。该研究旨在赋予用户对图像在嵌入中表示形式的最大控制权,使得用户能够通过自然语言指定图像的哪些方面需要被强调和表示。ABC模型通过预训练于大量具有挑战性的嵌入样本数据集,捕获细微差异,并在短暂的微调阶段后,适用于VQA等任务,其中用户指令的差异导致不同的正确答案。ABC在MSCOCO图像到文本检索上实现了最佳尺寸性能,并在Massive Multimodal Embedding Benchmark的零样本分类和VQA任务中表现最佳。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作