five

RLAIF-V-Dataset - 大规模多模态偏好数据集|多模态学习数据集|模型训练数据集

收藏
huggingface2024-05-26 更新2024-12-12 收录
多模态学习
模型训练
下载链接:
https://huggingface.co/datasets/openbmb/RLAIF-V-Dataset
下载链接
链接失效反馈
资源简介:
RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集,涵盖各种任务和领域,包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法,采用开源大模型来对模型响应进行去混杂处理,并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中,MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。

RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集,涵盖各种任务和领域,包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法,采用开源大模型来对模型响应进行去混杂处理,并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中,MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。
提供机构:
OpenBMB
创建时间:
2024-05-19
原始信息汇总

数据集概述:RLAIF-V-Dataset

基本信息

  • 许可证:CC-BY-NC-4.0
  • 任务类别:视觉问答(Visual Question Answering)
  • 语言:英语(en)
  • 数据集名称:RLAIF-V-Dataset
  • 数据规模:10K < n < 100K

数据集特点

  • 数据字段
    • ds_name:数据集名称
    • image:包含路径和字节的字典,可自动转换为PIL图像
    • question:输入查询(针对多模态大语言模型)
    • chosen:针对问题的优选回答
    • rejected:针对问题的拒绝回答
    • origin_dataset:图像或问题的原始数据集
    • origin_split:元信息(包括生成回答对的模型、标注模型、问题类型等)
    • idx:数据索引
    • image_path:图像路径

数据集摘要

  • 规模:包含83,132个偏好对
  • 数据来源:多样化的数据集(MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA、TextVQA等)
  • 用途:通过训练,模型可达到优于开源和专有模型的信任度

相关资源

  • 训练模型
    • MiniCPM-V系列:具有与GPT-4V相当性能的端侧多模态大语言模型
    • RLAIF-V:具有远超GPT-4V信任度的多模态大语言模型

使用方式

python from datasets import load_dataset data = load_dataset("openbmb/RLAIF-V-Dataset")

引用

bibtex @article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }

@article{yu2024rlaifv, title={RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness}, author={Tianyu Yu and Haoye Zhang and Qiming Li and Qixin Xu and Yuan Yao and Da Chen and Xiaoman Lu and Ganqu Cui and Yunkai Dang and Taiwen He and Xiaocheng Feng and Jun Song and Bo Zheng and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
RLAIF-V-Dataset的构建过程基于多模态反馈数据,涵盖了83,132对偏好数据。这些数据源自多个知名数据集,如MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA和TextVQA。通过整合这些数据,并结合RLHF-V引入的图像描述提示,构建了一个高质量的多模态反馈数据集。数据集的构建旨在通过多样化的指令和反馈,提升模型的信任度和泛化能力。
特点
RLAIF-V-Dataset的特点在于其大规模和多模态的特性。数据集不仅包含了丰富的图像和文本对,还提供了详细的偏好反馈,涵盖了“选择”和“拒绝”两种响应。此外,数据集的多样性和高质量反馈使其能够显著提升多模态大语言模型的信任度。实验结果表明,基于该数据集训练的模型在信任度和通用性能上均表现出色,超越了现有的开源和专有模型。
使用方法
使用RLAIF-V-Dataset时,可以通过Hugging Face的`datasets`库轻松加载数据。用户只需调用`load_dataset`函数,指定数据集名称即可获取包含图像、问题、选择响应、拒绝响应等字段的数据。加载后的数据可直接用于多模态大语言模型的训练和评估,帮助提升模型的信任度和泛化能力。
背景与挑战
背景概述
RLAIF-V-Dataset是由清华大学等机构的研究团队于2024年发布的大规模多模态偏好数据集,旨在通过高质量的多模态反馈提升多模态大语言模型(MLLMs)的可信度。该数据集包含83,132对偏好数据,涵盖了MSCOCO、ShareGPT-4V、MovieNet等多个知名数据集的指令,并结合了RLHF-V中引入的图像描述提示。通过训练该数据集,模型在可信度方面显著优于开源和专有模型,推动了多模态模型在真实场景中的应用。
当前挑战
RLAIF-V-Dataset的构建面临两大挑战。首先,多模态数据的对齐与整合需要处理图像、文本和反馈之间的复杂关系,确保数据的一致性和高质量。其次,偏好数据的生成依赖于人工或模型标注,如何保证标注的准确性和多样性是一个关键问题。此外,数据集的规模庞大,对存储、计算资源和模型训练效率提出了更高要求,如何在有限资源下高效利用数据也是亟待解决的难题。
常用场景
经典使用场景
RLAIF-V-Dataset作为一个大规模多模态偏好数据集,广泛应用于视觉问答(VQA)和多模态语言模型(MLLM)的训练与评估。通过提供高质量的偏好对数据,该数据集能够帮助模型在生成图像描述和回答问题时,更好地理解图像与文本之间的复杂关系。其经典使用场景包括模型对齐、信任度提升以及多模态任务的性能优化。
实际应用
在实际应用中,RLAIF-V-Dataset被用于训练和优化多模态语言模型,如MiniCPM-V系列和RLAIF-V系列模型。这些模型在医疗影像分析、自动驾驶、智能客服等领域展现了卓越的性能。通过提升模型的信任度,该数据集为实际应用场景中的决策支持系统提供了更可靠的文本和图像生成能力。
衍生相关工作
RLAIF-V-Dataset的发布催生了一系列相关研究工作,包括MiniCPM-V系列模型和RLAIF-V系列模型的开发。这些模型在信任度和性能上均超越了现有的开源和专有模型。此外,该数据集还启发了更多关于多模态对齐和细粒度反馈的研究,推动了多模态语言模型领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录