RLAIF-V-Dataset

Name: RLAIF-V-Dataset
Creator: Unsloth AI
Published: 2024-09-26 09:39:43
License: 暂无描述

Hugging Face2024-09-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/unsloth/RLAIF-V-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

RLAIF-V-Dataset是一个大规模多模态反馈数据集，提供高质量反馈，包含83,132个偏好对。数据集的指令来自多个数据集，包括MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA和TextVQA。此外，采用了RLHF-V中引入的图像描述提示作为长格式图像字幕指令。通过训练这些数据，模型可以达到比开源和专有模型更高的可信度。

提供机构：

Unsloth AI

创建时间：

2024-09-25

原始信息汇总

RLAIF-V-Dataset 数据集概述

基本信息

语言: 英语
许可证: CC BY-NC 4.0
任务类别: 视觉问答
数据集名称: RLAIF-V-Dataset

数据集结构

特征

image: 图像数据
question: 问题文本
answer: 答案文本

数据分割

train:
- 样本数量: 2493
- 数据大小: 377139114.334 字节

配置

config_name: default
- 数据文件路径: data/train-*

数据集摘要

类型: 大规模多模态反馈数据集
反馈对数量: 83,132
数据来源: 包括 MSCOCO, ShareGPT-4V, MovieNet, Google Landmark v2, VQA v2, OKVQA, TextVQA 等
目标: 提升模型的可信度，使其优于开源和专有模型

数据字段

序号	字段名	描述
0	`ds_name`	数据集名称
1	`image`	包含路径和字节的字典，可自动转换为PIL图像
2	`question`	多模态语言模型的输入查询
3	`chosen`	问题的被选答案
4	`rejected`	问题的被拒绝答案
5	`origin_dataset`	图像或问题的原始数据集
6	`origin_split`	每个数据项的元信息，包括生成被选和被拒绝答案对的模型名称、提供反馈的标注模型以及问题类型（详细描述或问答）
7	`idx`	数据索引
8	`image_path`	图像路径

引用

bibtex @article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }

@article{yu2024rlaifv, title={RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness}, author={Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

搜集汇总

数据集介绍

构建方式

RLAIF-V-Dataset的构建基于多模态反馈数据，涵盖了来自多个知名数据集的指令，包括MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA和TextVQA。通过引入RLHF-V中的图像描述提示，生成了长形式的图像-文本配对指令。数据集共包含83,132个偏好对，确保了数据的多样性和高质量反馈。

特点

RLAIF-V-Dataset以其大规模和高信任度的多模态反馈数据著称。数据集不仅涵盖了广泛的视觉问答任务，还通过精心设计的偏好对提升了模型的信任度。其独特之处在于能够显著提升多模态大语言模型（MLLMs）的信任度，并在多个开源和专有模型上展现出卓越的泛化能力。

使用方法

使用RLAIF-V-Dataset时，可以通过Hugging Face的`datasets`库轻松加载数据。加载后，数据集中的图像字段可自动转换为PIL图像格式，便于直接用于模型训练。每个数据项包含图像、问题、选择的回答、拒绝的回答以及原始数据集的元信息，用户可根据需求灵活调整训练流程。

背景与挑战

背景概述

RLAIF-V-Dataset是由清华大学等机构的研究团队于2024年发布的大规模多模态反馈数据集，旨在提升多模态大语言模型（MLLMs）的可信度。该数据集整合了来自MSCOCO、ShareGPT-4V、MovieNet等多个知名数据集的指令，并引入了RLHF-V中的图像描述提示，生成了83,132对高质量偏好数据。通过训练该数据集，研究团队开发了RLAIF-V 7B和RLAIF-V 12B模型，这些模型在可信度和通用性能上均表现出色，甚至超越了GPT-4V。该数据集的发布为多模态模型的可信度对齐研究提供了重要支持，推动了相关领域的发展。

当前挑战

RLAIF-V-Dataset的构建面临多重挑战。首先，多模态数据的对齐问题尤为复杂，图像与文本之间的语义一致性需要精确把控，以确保反馈数据的质量。其次，偏好数据的生成依赖于高质量的人工标注和模型反馈，这对标注模型的准确性和多样性提出了极高要求。此外，数据集的多样性和通用性也需兼顾，既要覆盖广泛的场景和任务，又要避免数据偏差对模型训练的影响。最后，如何在提升模型可信度的同时保持其通用性能，是数据集应用中的核心挑战之一。这些挑战的解决需要跨领域的协作与创新方法。

常用场景

经典使用场景

RLAIF-V-Dataset在视觉问答（VQA）领域具有广泛的应用，尤其是在多模态大语言模型（MLLMs）的训练和评估中。该数据集通过提供高质量的反馈数据，帮助模型在复杂的视觉和文本交互任务中表现出色。其经典使用场景包括图像描述生成、视觉问答系统优化以及多模态模型的信任度提升。通过结合来自多个数据集的指令，RLAIF-V-Dataset为模型提供了多样化的训练环境，使其能够更好地理解和生成与图像相关的文本内容。

解决学术问题

RLAIF-V-Dataset解决了多模态大语言模型在信任度和泛化能力方面的关键问题。通过引入83,132个偏好对，该数据集为模型提供了精细的反馈机制，帮助其在生成响应时更加可靠和准确。此外，数据集的高质量反馈机制显著提升了模型在面对复杂视觉和文本任务时的表现，尤其是在图像描述和问答任务中，模型的信任度得到了显著提升。这一进展为学术界提供了新的研究方向，尤其是在多模态模型的信任度评估和优化方面。

衍生相关工作

RLAIF-V-Dataset的发布催生了一系列相关研究和工作，尤其是在多模态大语言模型的信任度提升方面。基于该数据集训练的MiniCPM-V系列模型在性能上达到了与GPT-4V相当的水平，而RLAIF-V系列模型则在信任度方面超越了GPT-4V。这些模型的成功应用进一步推动了多模态模型在视觉问答、图像描述生成等领域的应用。此外，该数据集还为其他研究者提供了高质量的训练数据，促进了多模态模型在更多实际场景中的应用和优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集