OmniAlign-V SFT Dataset, OmniAlign-V-DPO Dataset, MM-AlignBench

github2025-03-02 更新2025-02-27 收录

下载链接：

https://github.com/PhoenixZ810/OmniAlign-V

下载链接

链接失效反馈

官方服务：

资源简介：

OmniAlign-V SFT数据集：用于提高多模态大型语言模型（MLLMs）与人类偏好对齐的SFT数据集，包含205k高质量图像-问题-答案对，具有开放式、创造性问题和长篇、知识丰富、全面的答案。OmniAlign-V-DPO数据集：为直接偏好优化（DPO）设计的专用数据集，利用OmniAlign-V SFT数据集中的答案作为正样本，并使用LLaVANext-InternLM-7B进行拒绝抽样生成负样本。MM-AlignBench基准：用于评估MLLMs与人类偏好对齐的基准，包括252个高质量、人工注释的样本，具有多种图像类型和开放式问题。

OmniAlign-V SFT Dataset: A supervised fine-tuning (SFT) dataset designed to enhance the alignment between multimodal large language models (MLLMs) and human preferences, comprising 205,000 high-quality image-question-answer triplets with open-ended, creative questions and long, knowledge-rich, comprehensive answers. OmniAlign-V-DPO Dataset: A dedicated dataset developed for Direct Preference Optimization (DPO), which uses the answers from the OmniAlign-V SFT dataset as positive samples and generates negative samples via rejection sampling with LLaVANext-InternLM-7B. MM-AlignBench: A benchmark for evaluating the alignment between MLLMs and human preferences, consisting of 252 high-quality, manually annotated samples covering diverse image types and open-ended questions.

创建时间：

2025-02-19

原始信息汇总

OmniAlign-V 数据集概述

数据集简介

OmniAlign-V 是一个旨在提高多模态大型语言模型（MLLMs）与人类偏好对齐的数据集。该数据集包含三个关键贡献：OmniAlign-V SFT 数据集、OmniAlign-V-DPO 数据集和 MM-AlignBench。

OmniAlign-V SFT 数据集

类型：SFT 数据集
内容：包含 205k 高质量图像-问题-答案对，特点是开放式的、创造性的问题和长篇的、知识丰富的、全面的答案。

OmniAlign-V-DPO 数据集

类型：专门用于直接偏好优化（DPO）的数据集
内容：利用 OmniAlign-V SFT 数据集中的答案作为正样本，并使用 LLaVANext-InternLM-7B 通过拒绝采样生成负样本。

MM-AlignBench

类型：用于评估 MLLMs 与人类偏好对齐的基准测试
内容：包含 252 个高质量、人工标注的样本，具有多种图像类型和开放式问题。

数据集性能

OmniAlign-V SFT 数据集不仅显著提高了 MLLMs 与人类偏好的对齐，还提升了 MLLMs 在常见下游任务上的性能，特别是在 MMVet 和 MMMU 基准测试上。

使用说明

环境安装

推荐使用 Python-3.10 的 conda 虚拟环境
安装 XTuner 从源代码

数据准备

预训练数据：使用 ALLaVA-pretrain 和 LLaVA-pretrain-558k
SFT 数据：使用 LLaVA-Next-SFT-778K 和 OmniAlign-V-SFT 数据集
DPO：仅使用 OmniAlign-V-DPO 数据集

模型权重

模型权重可在 HuggingFace ModelZoo 中获取

训练与评估

支持在一个命令中完成训练和评估

引用

在使用 OmniAlign-V 数据集时，请使用以下 BibTeX 引用：

bibtex @article{zhao2025omnialignvenhancedalignmentmllms, title={OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference}, author={Xiangyu Zhao and Shengyuan Ding and Zicheng Zhang and Haian Huang and Maosong Cao and Weiyun Wang and Jiaqi Wang and Xinyu Fang and Wenhai Wang and Guangtao Zhai and Haodong Duan and Hua Yang and Kai Chen}, journal={arXiv preprint arXiv:2502.18411}, year={2024} }

搜集汇总

数据集介绍

构建方式

OmniAlign-V SFT数据集与OmniAlign-V-DPO数据集的构建旨在提升多模态大型语言模型（MLLMs）与人类偏好的对齐度。OmniAlign-V SFT数据集包含205k高质量图像-问题-答案对，这些问题开放性、创造性较强，答案则详尽、知识丰富。OmniAlign-V-DPO数据集则是为直接偏好优化（DPO）而专门设计的，利用OmniAlign-V SFT数据集中的答案作为正样本，并通过拒绝采样方式生成负样本。

特点

这两个数据集的特点在于：首先，它们提供了丰富多样的图像类型和开放性问题，有助于模型更好地理解和响应复杂多变的现实世界场景；其次，通过精心设计的DPO阶段，进一步强化了模型与人类偏好的对齐，提升了模型在多模态任务中的表现；最后，数据集的构建考虑了模型训练和评估的便捷性，为研究人员提供了高效的实验平台。

使用方法

使用这两个数据集时，首先需要准备Python-3.10虚拟环境，并安装必要的依赖库。数据集的结构被设计为易于加载和处理的格式，用户可以通过修改`meta_path.json`文件来指定不同类型的数据路径。此外，训练和评估过程可通过集成的VLMEvalKit工具进行，简化了实验流程。 checkpoints可以从HuggingFace ModelZoo获取，方便用户进行模型训练和测试。

背景与挑战

背景概述

OmniAlign-V SFT Dataset及OmniAlign-V-DPO Dataset是由Xiangyu Zhao等研究人员于2025年创建的两个数据集。这两个数据集旨在提高多模态大型语言模型（MLLMs）与人类偏好的对齐程度。OmniAlign-V SFT Dataset包含205k个高质量的图像-问题-答案对，这些问题开放式、创新性强，答案则详尽、知识丰富。OmniAlign-V-DPO Dataset则专为直接偏好优化（DPO）设计，使用OmniAlign-V SFT Dataset中的答案作为正样本，并通过拒绝采样生成负样本。这两个数据集的创建对于推动多模态语言模型的发展和对齐研究具有重要的意义，已在相关领域产生了广泛的影响。

当前挑战

在构建OmniAlign-V SFT Dataset和OmniAlign-V-DPO Dataset的过程中，研究人员面临了多个挑战。首先，如何设计能够生成开放式、创新性问题的高质量数据集是一个挑战。其次，生成详尽、知识丰富的答案需要精确的标注和数据处理。此外，构建适用于DPO的负样本同样具有挑战性，需要有效的采样策略和数据处理方法。这些挑战不仅要求研究人员具备深厚的数据集构建经验，也对数据处理和模型训练提出了更高的要求。

常用场景

经典使用场景

OmniAlign-V SFT数据集旨在提高多模态大型语言模型（MLLMs）与人类偏好的对齐性，其经典使用场景在于为MLLMs的训练提供高质量的图像-问题-答案三元组，这些三元组包含了开放式、创造性问题以及长篇、知识丰富、全面的答案，从而使得模型能够更好地理解和回应复杂多变的用户需求。

衍生相关工作

基于OmniAlign-V SFT数据集，研究者们进一步衍生了OmniAlign-V-DPO数据集以及MM-AlignBench评价标准，这些相关工作不仅拓展了数据集的应用范围，也为多模态模型的研究和评估提供了新的方法和工具。

数据集最近研究