Multiple Multimodal Artificial Intelligence Preference Datasets in VQA (MMAIP-V)

arXiv2024-11-25 更新2024-11-27 收录

下载链接：

https://anonymous.4open.science/r/MMAIP-V_Iter-W2S-RLAIF-702F/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

MMAIP-V是由快手科技和中国人民大学高瓴人工智能学院联合创建的高质量视频问答偏好数据集，旨在促进多模态大语言模型（MLLMs）的偏好学习。该数据集包含24,000条视频问答对，通过从多模态大语言模型的响应分布中采样，并利用外部评分函数进行响应质量评估构建而成。数据集的创建过程结合了多种视觉语言模型的反馈，确保了正负响应的高质量和多样性。MMAIP-V主要应用于视频问答领域的偏好学习，旨在解决现有数据集质量低、多样性不足的问题，从而提升MLLMs的指令遵循能力和减少幻觉现象。

MMAIP-V is a high-quality video question answering preference dataset jointly created by Kuaishou Technology and Gaoling School of Artificial Intelligence, Renmin University of China, aiming to facilitate preference learning for multimodal large language models (MLLMs). This dataset contains 24,000 video question-answering pairs, which are constructed by sampling from the response distribution of multimodal large language models and evaluating response quality using external scoring functions. The dataset creation process incorporates feedback from multiple visual-language models, ensuring the high quality and diversity of both positive and negative responses. MMAIP-V is mainly applied to preference learning in the field of video question answering, aiming to address the issues of low quality and insufficient diversity in existing datasets, thereby improving the instruction-following ability of MLLMs and reducing hallucinations.

提供机构：

快手科技，北京，中国中国人民大学，高瓴人工智能学院，北京

创建时间：

2024-11-25

搜集汇总

数据集介绍

构建方式

MMAIP-V数据集的构建基于多模态大语言模型（MLLMs）的反馈，通过从高质量的响应分布集中采样，并利用外部评分函数进行响应评估。具体而言，该数据集从多个视觉语言模型（MLLMs zoo）中抽取响应，并使用GPT-4o进行自动评分，根据评分结果构建偏好响应对。此过程确保了正负响应的高质量和多样性，从而为MLLMs的偏好学习提供了丰富的数据支持。

使用方法

MMAIP-V数据集主要用于多模态大语言模型（MLLMs）的偏好学习。研究者可以通过迭代弱到强强化学习框架（Iter-W2S-RLAIF）来充分利用该数据集中的偏好信号，逐步更新参考模型并进行参数外推，从而提升模型的对齐能力。此外，该数据集还可用于开发新的无偏评估方案，结合视频信息进行细粒度的多视角评估，以更全面地评估MLLMs的性能。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）的研究领域中，高质量的视频-文本偏好数据对于模型的对齐至关重要。然而，现有的偏好数据极为稀缺，且获取视频问答（VQA）偏好数据成本高昂，手动标注的可靠性也较低，可能导致低质量的数据对。为了解决这些问题，Hao Yi Kuaishou Technology、Remin University of China等机构的研究人员于2024年提出了名为Multiple Multimodal Artificial Intelligence Preference Datasets in VQA（MMAIP-V）的高质量VQA偏好数据集。该数据集通过从响应分布集中采样并使用外部评分函数进行响应评估来构建，旨在为MLLMs的对齐提供有效的偏好学习数据。

当前挑战

MMAIP-V数据集在构建过程中面临多个挑战。首先，收集偏好数据集的难度大，由于缺乏合理的视觉评估模型，手动标注视频问答对既耗时又昂贵。其次，标注者的技能水平和能力差异导致标注结果的方差较大。此外，现有的AI生成响应方法主要依赖于温度调整引入的随机性，导致偏好信号相似，不利于偏好学习。最后，高质量的偏好数据成为MLLMs对齐研究的瓶颈。为了应对这些挑战，研究团队提出了基于多AI反馈的自动VQA偏好数据生成管道，并设计了迭代弱到强强化学习框架（Iter-W2S-RLAIF），以逐步提升MLLMs的对齐能力。

常用场景

经典使用场景

MMAIP-V数据集在多模态大语言模型（MLLMs）的偏好学习中发挥了关键作用。其经典使用场景包括通过从高质量的响应分布集中采样，并利用外部评分函数进行响应评估，构建高质量的视频问答（VQA）偏好数据集。这种方法不仅解决了现有偏好数据稀缺的问题，还通过迭代弱到强的强化学习框架（Iter-W2S-RLAIF）逐步提升MLLMs的对齐能力。

解决学术问题

MMAIP-V数据集解决了多模态大语言模型在视频问答任务中偏好数据稀缺和质量低下的学术问题。通过自动化的VQA偏好数据生成管道，该数据集提供了丰富且高质量的偏好对，有助于模型在偏好学习中更好地对齐人类或AI的偏好，从而减少幻觉现象，提升视频问答的准确性和可靠性。

实际应用

MMAIP-V数据集在实际应用中广泛用于视频内容的理解和生成任务。例如，在视频推荐系统中，通过分析用户对不同视频回答的偏好，可以更精准地推荐符合用户兴趣的视频内容。此外，在教育、娱乐和广告等领域，该数据集也能帮助开发更智能的视频交互应用，提升用户体验。

数据集最近研究