RLAIF-V-Dataset - 大规模多模态偏好数据集

Name: RLAIF-V-Dataset - 大规模多模态偏好数据集
Creator: OpenBMB
Published: 2024-05-26 21:22:15
License: 暂无描述

Hugging Face2024-05-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/openbmb/RLAIF-V-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集，涵盖各种任务和领域，包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法，采用开源大模型来对模型响应进行去混杂处理，并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中，MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。

提供机构：

OpenBMB

创建时间：

2024-05-19

原始信息汇总

数据集概述：RLAIF-V-Dataset

基本信息

许可证：CC-BY-NC-4.0
任务类别：视觉问答（Visual Question Answering）
语言：英语（en）
数据集名称：RLAIF-V-Dataset
数据规模：10K < n < 100K

数据集特点

数据字段：
- ds_name：数据集名称
- image：包含路径和字节的字典，可自动转换为PIL图像
- question：输入查询（针对多模态大语言模型）
- chosen：针对问题的优选回答
- rejected：针对问题的拒绝回答
- origin_dataset：图像或问题的原始数据集
- origin_split：元信息（包括生成回答对的模型、标注模型、问题类型等）
- idx：数据索引
- image_path：图像路径

数据集摘要

规模：包含83,132个偏好对
数据来源：多样化的数据集（MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA、TextVQA等）
用途：通过训练，模型可达到优于开源和专有模型的信任度

使用方式

python from datasets import load_dataset data = load_dataset("openbmb/RLAIF-V-Dataset")

引用

bibtex @article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }

@article{yu2024rlaifv, title={RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness}, author={Tianyu Yu and Haoye Zhang and Qiming Li and Qixin Xu and Yuan Yao and Da Chen and Xiaoman Lu and Ganqu Cui and Yunkai Dang and Taiwen He and Xiaocheng Feng and Jun Song and Bo Zheng and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

搜集汇总

数据集介绍

构建方式

RLAIF-V-Dataset的构建过程基于多模态反馈数据，涵盖了83,132对偏好数据。这些数据源自多个知名数据集，如MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA和TextVQA。通过整合这些数据，并结合RLHF-V引入的图像描述提示，构建了一个高质量的多模态反馈数据集。数据集的构建旨在通过多样化的指令和反馈，提升模型的信任度和泛化能力。

特点

RLAIF-V-Dataset的特点在于其大规模和多模态的特性。数据集不仅包含了丰富的图像和文本对，还提供了详细的偏好反馈，涵盖了“选择”和“拒绝”两种响应。此外，数据集的多样性和高质量反馈使其能够显著提升多模态大语言模型的信任度。实验结果表明，基于该数据集训练的模型在信任度和通用性能上均表现出色，超越了现有的开源和专有模型。

使用方法

使用RLAIF-V-Dataset时，可以通过Hugging Face的`datasets`库轻松加载数据。用户只需调用`load_dataset`函数，指定数据集名称即可获取包含图像、问题、选择响应、拒绝响应等字段的数据。加载后的数据可直接用于多模态大语言模型的训练和评估，帮助提升模型的信任度和泛化能力。

背景与挑战

背景概述

RLAIF-V-Dataset是由清华大学等机构的研究团队于2024年发布的大规模多模态偏好数据集，旨在通过高质量的多模态反馈提升多模态大语言模型（MLLMs）的可信度。该数据集包含83,132对偏好数据，涵盖了MSCOCO、ShareGPT-4V、MovieNet等多个知名数据集的指令，并结合了RLHF-V中引入的图像描述提示。通过训练该数据集，模型在可信度方面显著优于开源和专有模型，推动了多模态模型在真实场景中的应用。

当前挑战

RLAIF-V-Dataset的构建面临两大挑战。首先，多模态数据的对齐与整合需要处理图像、文本和反馈之间的复杂关系，确保数据的一致性和高质量。其次，偏好数据的生成依赖于人工或模型标注，如何保证标注的准确性和多样性是一个关键问题。此外，数据集的规模庞大，对存储、计算资源和模型训练效率提出了更高要求，如何在有限资源下高效利用数据也是亟待解决的难题。

常用场景

经典使用场景

RLAIF-V-Dataset作为一个大规模多模态偏好数据集，广泛应用于视觉问答（VQA）和多模态语言模型（MLLM）的训练与评估。通过提供高质量的偏好对数据，该数据集能够帮助模型在生成图像描述和回答问题时，更好地理解图像与文本之间的复杂关系。其经典使用场景包括模型对齐、信任度提升以及多模态任务的性能优化。

实际应用

在实际应用中，RLAIF-V-Dataset被用于训练和优化多模态语言模型，如MiniCPM-V系列和RLAIF-V系列模型。这些模型在医疗影像分析、自动驾驶、智能客服等领域展现了卓越的性能。通过提升模型的信任度，该数据集为实际应用场景中的决策支持系统提供了更可靠的文本和图像生成能力。

衍生相关工作

RLAIF-V-Dataset的发布催生了一系列相关研究工作，包括MiniCPM-V系列模型和RLAIF-V系列模型的开发。这些模型在信任度和性能上均超越了现有的开源和专有模型。此外，该数据集还启发了更多关于多模态对齐和细粒度反馈的研究，推动了多模态语言模型领域的进一步发展。

以上内容由遇见数据集搜集并总结生成