OmniAlign-V

Name: OmniAlign-V
Creator: 上海交通大学, 上海人工智能实验室, 南京大学, 复旦大学, 浙江大学
Published: 2025-02-26 02:05:14
License: 暂无描述

arXiv2025-02-26 更新2025-02-27 收录

下载链接：

https://github.com/PhoenixZ810/OmniAlign-V

下载链接

链接失效反馈

官方服务：

资源简介：

OmniAlign-V是一个全面的多模态SFT数据集，由上海交通大学、上海人工智能实验室等联合构建，包含自然图像和 infographic图像两大类，涵盖知识性、推理性、创造性等多种任务类型，旨在通过开放的、全面的问题和回答，提升MLLMs对人类偏好的理解和响应能力。该数据集选用了丰富的语义内容图像，经过精心设计的问题和答案，形成了与现有数据集显著不同的数据分布，能够有效提升MLLMs在多模态环境下的对齐性能。

OmniAlign-V is a comprehensive multimodal supervised fine-tuning (SFT) dataset jointly constructed by Shanghai Jiao Tong University, Shanghai AI Laboratory, and other collaborating institutions. It encompasses two categories of images: natural images and infographic images, covering diverse task types including knowledge-based, reasoning, and creative tasks. The dataset aims to enhance the capability of Multimodal Large Language Models (MLLMs) to understand and respond in line with human preferences via open, comprehensive question-answer pairs. By leveraging rich semantically meaningful images and meticulously designed question-answer pairs, it creates a data distribution significantly distinct from that of existing datasets, thus effectively improving the alignment performance of MLLMs in multimodal scenarios.

提供机构：

上海交通大学, 上海人工智能实验室, 南京大学, 复旦大学, 浙江大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

OmniAlign-V 数据集的构建主要针对提升多模态大型语言模型（MLLMs）与人类偏好的一致性。该数据集由约 20 万个高质量训练样本组成，包括多样化的图像、复杂的问题和多样的响应格式。在图像选择方面，OmniAlign-V 包含自然图像和信息图表，如海报和图表。为了确保图像的语义丰富性，开发了一种新颖的解决方案来过滤自然图像集合中的语义丰富的图像。在任务设计方面，为不同的图像类型设计了基于知识的复杂问答、创造性任务和推理任务。每个任务类别都包含多样化的子任务，并利用最先进的 MLLMs 获取多样化和高质量的响应。

特点

OmniAlign-V 数据集的特点在于其开放式的问答、广泛的主题覆盖、多样的响应格式（在长度和风格上有所不同），以及对指令的严格遵守。这些特点使得 OmniAlign-V 能够有效地提升 MLLMs 与人类偏好的一致性。此外，OmniAlign-V 还包含一个名为 MM-AlignBench 的高质量基准，该基准由人类标注，旨在评估 MLLMs 与人类价值观的一致性。MM-AlignBench 包含 252 个精心策划的样本，具有多样化的图像来源和人类注释者精心制作的问答对。

使用方法

OmniAlign-V 数据集的使用方法主要涉及监督微调（SFT）和直接偏好优化（DPO）。在 SFT 阶段，将 OmniAlign-V 集成到 LLaVA-NeXT 结构中，使用 InternLM2.5-7B 和 Qwen2.5-32B 进行训练，以实现显著的人类偏好一致性提升。在 DPO 阶段，OmniAlign-V 也可用于生成正样本，并通过拒绝采样生成负样本，以进一步优化模型。实验结果表明，使用 OmniAlign-V 进行 SFT 或 DPO 训练的 MLLMs 在人类偏好一致性方面取得了显著提升，同时在标准 VQA 基准测试上保持了或提高了性能，保持了其基本能力。

背景与挑战

背景概述

OmniAlign-V数据集是由上海交通大学、上海人工智能实验室、南京大学、复旦大学和浙江大学的研究人员于2025年共同创建的。该数据集旨在解决当前多模态大型语言模型（MLLMs）在基础能力提升方面取得的进展与人类偏好对齐方面存在的显著差距。OmniAlign-V数据集包含了20万个高质量的训练样本，其中包括多样化的图像、复杂的问题和不同的响应格式，旨在提高MLLMs与人类偏好的对齐程度。此外，该研究还提出了MM-AlignBench，这是一个专门设计用于评估MLLMs与人类价值观对齐程度的人标注基准。实验结果表明，使用监督微调（SFT）或直接偏好优化（DPO）对MLLMs进行微调，可以显著提高人类偏好对齐程度，同时保持或提高在标准视觉问答（VQA）基准上的性能，从而保持其基本能力。

当前挑战

OmniAlign-V数据集和相关研究的挑战包括：1）当前多模态大型语言模型在基础能力提升方面取得了进展，但在人类偏好对齐方面存在显著差距；2）现有的多模态指令微调数据集主要关注基础能力，而缺乏高质量的、人类对齐的多模态训练数据。为了提高人类偏好对齐，需要开发专门的多模态指令微调数据集，这些数据集应该包含开放式问题、广泛的主题覆盖范围、多样化的响应格式（长度和风格各异）以及对指令的严格遵循。OmniAlign-V数据集正是基于这些原则构建的，它包含了自然图像和信息图表，并通过精心设计的流程来过滤出语义丰富的图像。此外，现有的多模态人类偏好基准缺乏多样性，包含重复的问题，并且缺乏清晰度，这导致了MM-AlignBench的提出，它是一个包含252个精心策划样本的高质量基准，旨在全面评估MLLMs与人类偏好的对齐程度。

常用场景

经典使用场景

OmniAlign-V 数据集主要用于提升多模态大型语言模型（MLLMs）与人类偏好的对齐程度。该数据集包含多样化的图像、复杂的开放性问题以及多样的回答格式，旨在让模型更好地理解和回应人类的真实需求。通过使用 OmniAlign-V 进行监督微调（SFT）或直接偏好优化（DPO），实验结果表明 MLLMs 的人类偏好对齐程度得到了显著提高，同时保持了在标准视觉问答（VQA）基准测试中的性能。

解决学术问题

OmniAlign-V 数据集解决了多模态大型语言模型在人类偏好对齐方面存在的显著差距问题。现有的多模态指令调整数据集主要关注基础能力，例如感知、OCR 和数学推理，缺乏对人类偏好和现实世界交互复杂性的充分理解。OmniAlign-V 通过引入开放性、多样性和创造性的问题，以及全面和知识丰富的回答，有效提升了模型在多模态场景下的人类偏好对齐能力。

衍生相关工作

OmniAlign-V 数据集的推出，为多模态大型语言模型的偏好对齐研究提供了新的方向和思路。基于 OmniAlign-V 的研究成果，可以进一步探索如何更好地将人类偏好融入到模型的训练过程中，以及如何设计更加有效的多模态指令调整数据集。此外，OmniAlign-V 还可以与其他相关数据集和方法相结合，共同推动多模态大型语言模型的偏好对齐研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集