MM-RLHF

github2025-03-05 更新2025-02-22 收录

下载链接：

https://github.com/Kwai-YuanQi/MM-RLHF

下载链接

链接失效反馈

官方服务：

资源简介：

MM-RLHF是一个用于对多模态大型语言模型（MLLMs）进行人类偏好对齐的全面项目，其中包括一个高质量MLLM对齐数据集（120K样本，由50多名专家在两个月内创建，包括八个维度的评分和手动注释）。

MM-RLHF is a comprehensive project dedicated to human preference alignment of multimodal large language models (MLLMs), which includes a high-quality MLLM alignment dataset with 120K samples. The dataset was created by over 50 experts within two months, and features ratings across eight dimensions as well as manual annotations.

创建时间：

2025-02-16

原始信息汇总

MM-RLHF 数据集概述

数据集简介

MM-RLHF是一个用于对多模态大型语言模型（MLLMs）进行人类偏好对齐的全面项目。该项目包括一个高质量的MLLM对齐数据集、一个强大的基于评论的MLLM奖励模型及其训练算法、一种新颖的对齐算法MM-DPO以及两个新的基准测试。

数据集详情

数据集名称：MM-RLHF Dataset
数据集大小：包含20k指令，涵盖图像理解、视频理解和安全相关任务。
数据内容：每条指令包括3-5个模型生成的响应，以及人类注释的评分、排名和详细的文本反馈。
附加数据：为每个指令生成的80k比较对，适用于RLHF训练。

关键组件

MM-RLHF数据集：包含所有标记信息的data.jsonl文件和用于DPO及奖励模型训练的dpo_pairs.jsonl文件。
基于评论的MLLM奖励模型：MM-RLHF-Reward-7B模型，生成候选文本的评论后再分配分数，提供增强的可解释性和更丰富的反馈。
MM-DPO算法：一种新颖的对齐算法，通过简单调整DPO框架即可实现性能显著提升。
MM-RLHF基准测试：
- MM-RLHF-RewardBench：评估奖励模型的质量。
- MM-RLHF-SafetyBench：关注MLLM的安全性，包括对抗性攻击、红队测试、越狱和有害内容检测等任务。

使用说明

克隆仓库：git clone https://github.com/yfzhang114/MM-RLHF
数据准备：下载MM-RLHF数据，解压图像和视频数据集。
训练和评估：提供训练基于评论的MLLM奖励模型和MM-DPO算法的脚本，以及评估模型的代码。

引用

若本研究对您的研究和应用有帮助，请使用以下BibTeX引用： bibtex @article{zhang2025mm, title={MM-RLHF: The Next Step Forward in Multimodal LLM Alignment}, author={Zhang, Yi-Fan and Yu, Tao and Tian, Haochen and Fu, Chaoyou and Li, Peiyan and Zeng, Jianshu and Xie, Wulin and Shi, Yang and Zhang, Huanyu and Wu, Junkang and others}, journal={arXiv preprint arXiv:2502.10391}, year={2025} }

搜集汇总

数据集介绍

构建方式

MM-RLHF数据集的构建，涵盖了20k条指令，这些指令涉及图像理解、视频理解以及安全相关任务。每条指令下包含3-5个由模型生成的响应，以及人类标注的评分、排名和细粒度的文本反馈。此外，数据集还包含了80k个比较对，这些比较对是从排名样本中派生出来的，适合用于RLHF训练。

特点

该数据集的特点在于其高质量的多模态大语言模型（MLLM）对齐，能够在10个维度上和27个基准测试中为开源MLLM提供一致的性能提升。数据集不仅包含了丰富的指令和响应，还提供了人类评分和反馈，为模型的评估和改进提供了重要依据。

使用方法

使用MM-RLHF数据集首先需要从Hugging Face下载相应的数据，然后解压图像和视频数据集。数据集的结构包括标注信息文件`data.jsonl`和排名对文件`dpo_pairs.jsonl`。用户可以通过指定的脚本来训练评奖模型、运行DPO算法，以及评估对齐模型和奖励模型。评估奖励模型时，需要使用MM-RLHF-RewardBench，按照提供的步骤下载数据集和必要文件，运行评估脚本，并计算性能指标。

背景与挑战

背景概述

MM-RLHF数据集，由Zhang Yi-Fan等研究人员于2025年开发并开源，旨在推进多模态大型语言模型（MLLMs）与人类偏好的对齐。该数据集涵盖了20k指令，包括图像理解、视频理解以及安全相关任务，每个指令包含3-5个模型生成的响应，以及人类注释的评分、排名和详细的文本反馈。MM-RLHF数据集的发布对多模态人工智能领域产生了显著影响，推动了相关技术的发展和应用。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1）如何确保多模态指令与响应的准确对齐，以提升模型对复杂任务的理解能力；2）构建一个能够提供丰富、细致反馈的数据集，以便更好地指导模型训练；3）在数据集中融入安全性考量，以应对潜在的风险和滥用问题。同时，该数据集在解决多模态领域问题时，也面临着如何有效评价模型性能、确保模型安全性和公平性的挑战。

常用场景

经典使用场景

MM-RLHF数据集作为多模态大型语言模型（MLLM）与人类偏好对齐的全面项目的一部分，其经典使用场景在于为MLLM的训练和评估提供了高质量的数据基础。该数据集包含了20k条指令，涵盖图像理解、视频理解以及安全相关任务，每条指令下有3-5个模型生成的响应，以及人类标注的评分、排名和细粒度的文本反馈，为研究者提供了丰富的学习材料和实践平台。

实际应用

在实际应用中，MM-RLHF数据集可用于训练多模态模型，以便在诸如内容审核、智能推荐、交互式教育等多个领域实现更自然、更安全的人机交互。此外，数据集中的安全相关任务也为构建更为稳健和可信的多模态模型提供了重要支撑。

衍生相关工作

MM-RLHF数据集的发布催生了基于该数据集的诸多相关工作，如Critique-Based MLLM Reward Model和MM-DPO算法等，这些工作进一步拓展了多模态模型在理解、生成和评估方面的研究深度和广度，推动了多模态人工智能领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集