MM-RLHF

Name: MM-RLHF
Creator: 中国科学院自动化研究所
Published: 2025-02-15 02:59:51
License: 暂无描述

arXiv2025-02-15 更新2025-02-18 收录

下载链接：

https://mm-rlhf.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MM-RLHF数据集是由中国科学院自动化研究所构建的，包含12万细粒度、人工注释的偏好比较对。该数据集在规模、多样性、注释粒度和质量上都有所提升，涵盖了图像、视频理解和多模态安全三个领域。数据集的创建经过严格的管道，包括数据收集、数据筛选、模型响应生成和精细的人类注释等步骤。该数据集旨在推动多模态大型语言模型(MLLM)的偏好对齐研究，解决模型在实际应用中的 truthfulness、safety 和对人类偏好的对齐等问题。

The MM-RLHF dataset was constructed by the Institute of Automation, Chinese Academy of Sciences, containing 120,000 fine-grained, manually annotated preference comparison pairs. This dataset features improvements in scale, diversity, annotation granularity and quality, covering three domains: image understanding, video understanding and multimodal safety. The development of this dataset follows a rigorous pipeline, including steps such as data collection, data filtering, model response generation and fine-grained human annotation. This dataset aims to promote research on preference alignment for Multimodal Large Language Models (MLLMs), and address issues including model truthfulness, safety and alignment with human preferences in real-world applications.

提供机构：

中国科学院自动化研究所

创建时间：

2025-02-15

搜集汇总

数据集介绍

构建方式

MM-RLHF数据集的构建过程经过精心设计，旨在推进多模态强化学习从人类反馈（RLHF）。数据集涵盖了图像、视频理解和多模态安全三个领域。数据收集阶段，我们从多个来源精心挑选了多样化的多模态任务，总计达到1000万个数据实例，确保了任务的广泛代表性。随后，通过严格的重新采样，我们提取了3万个具有代表性的查询，确保了数据类型在现实世界场景、数学推理、图表理解和其他实用领域中的多样性。模型响应生成阶段，我们利用了Claude 3.5Sonnet和Qwen2-VL-72B等最先进的模型来生成各种任务的响应。最后，我们进行了细致的人类标注过程，由超过50名标注员耗时两个月，对响应进行评分、排名并提供文本解释，最终形成了超过12万个高质量的排名比较对。

特点

MM-RLHF数据集相较于现有数据集，在多样性、响应质量和标注粒度方面取得了显著的进步，为多模态大语言模型（MLLM）的校准提供了坚实的基础。数据集的多样性体现在其涵盖了图像、视频理解和多模态安全三个领域，能够为模型提供全面的训练环境。响应质量方面，我们采用了最先进的模型来生成响应，并经过人类细致的标注，确保了数据的高质量。在标注粒度上，数据集不仅包含了评分和排名，还提供了文本解释，使得模型能够提供细粒度的评分解释，从而显著提高了奖励信号的质量和可解释性。

使用方法

MM-RLHF数据集的使用方法主要包括以下几个方面：首先，数据集可以用于训练和评估奖励模型。其次，数据集可以用于直接偏好优化（DPO）框架下的模型训练，通过动态奖励缩放机制，根据奖励信号调整每个样本的损失权重，优化高质量比较对的使用。最后，数据集还可以用于构建专门的基准，如MM-RLHF-RewardBench和MM-RLHF-SafetyBench，用于评估奖励模型和模型的安全性。在使用数据集时，需要注意的是，数据集的标注粒度较高，标注过程耗时较长，因此在实际应用中需要考虑到标注成本和效率问题。

背景与挑战

背景概述

在多模态大型语言模型（MLLMs）领域，尽管模型在特定任务上取得了显著进展，如幻觉减少，但与人类偏好的一致性尚未得到充分探索。为了填补这一空白，Zhang等人（2025年）引入了MM-RLHF数据集，该数据集包含12万个精细的人类注释偏好比较对，涵盖了图像、视频理解和MLLM安全性三个领域。MM-RLHF数据集的创建旨在推动多模态强化学习从人类反馈（RLHF）的发展，为多模态模型的训练提供了高质量的标注数据。该数据集的构建过程包括数据收集、数据选择、模型响应生成和精细的人类注释，确保了数据的高质量、多样性和注释粒度。MM-RLHF数据集的创建为MLLM模型的训练和评估提供了坚实的基础，并推动了多模态学习框架的发展。

当前挑战

MM-RLHF数据集和相关研究面临的主要挑战包括：1) 所解决的领域问题是多模态模型的全面性能提升，包括视觉感知、推理、对话和可信度等方面；2) 构建过程中遇到的挑战包括数据收集的多样性、模型响应生成的质量和数量、以及人类注释的精细度和成本。为了解决这些挑战，研究团队提出了基于批评的奖励模型和动态奖励缩放方法，以提高奖励模型的质量和训练算法的效率。这些创新方法在多个维度和基准测试中得到了验证，并显著提高了模型的性能。然而，小型MLLM的自我改进仍然面临挑战，需要进一步探索和研究。

常用场景

经典使用场景

MM-RLHF数据集主要用于多模态大型语言模型（MLLMs）的对齐训练。通过对模型输出与人类偏好进行对比，该数据集能够帮助模型更好地理解人类意图，并在视觉理解、推理、对话和可靠性等方面取得全面提升。具体而言，MM-RLHF数据集通过人类标注的偏好比较对，为模型提供细粒度的反馈，使得模型能够学习到更符合人类期望的行为模式。此外，该数据集还支持奖励模型和直接偏好优化算法的研究，进一步提高了模型训练的效率和效果。

衍生相关工作

MM-RLHF数据集的提出，为多模态大型语言模型的对齐训练提供了重要的数据基础。基于该数据集，研究人员提出了多种改进的奖励模型和优化算法，例如基于批评的奖励模型和动态奖励缩放。这些相关工作进一步推动了多模态大型语言模型的发展，并在多个领域取得了显著的成果。未来，随着MM-RLHF数据集的不断完善和扩展，有望推动多模态大型语言模型在更多领域的应用和发展。

数据集最近研究