five

RLAIF-V-Dataset - 大规模多模态偏好数据集|多模态学习数据集|模型训练数据集

收藏
huggingface2024-05-26 更新2024-12-12 收录
多模态学习
模型训练
下载链接:
https://huggingface.co/datasets/openbmb/RLAIF-V-Dataset
下载链接
链接失效反馈
资源简介:
RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集,涵盖各种任务和领域,包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法,采用开源大模型来对模型响应进行去混杂处理,并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中,MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。

RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集,涵盖各种任务和领域,包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法,采用开源大模型来对模型响应进行去混杂处理,并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中,MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。
提供机构:
OpenBMB
创建时间:
2024-05-19
原始信息汇总

数据集概述:RLAIF-V-Dataset

基本信息

  • 许可证:CC-BY-NC-4.0
  • 任务类别:视觉问答(Visual Question Answering)
  • 语言:英语(en)
  • 数据集名称:RLAIF-V-Dataset
  • 数据规模:10K < n < 100K

数据集特点

  • 数据字段
    • ds_name:数据集名称
    • image:包含路径和字节的字典,可自动转换为PIL图像
    • question:输入查询(针对多模态大语言模型)
    • chosen:针对问题的优选回答
    • rejected:针对问题的拒绝回答
    • origin_dataset:图像或问题的原始数据集
    • origin_split:元信息(包括生成回答对的模型、标注模型、问题类型等)
    • idx:数据索引
    • image_path:图像路径

数据集摘要

  • 规模:包含83,132个偏好对
  • 数据来源:多样化的数据集(MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA、TextVQA等)
  • 用途:通过训练,模型可达到优于开源和专有模型的信任度

相关资源

  • 训练模型
    • MiniCPM-V系列:具有与GPT-4V相当性能的端侧多模态大语言模型
    • RLAIF-V:具有远超GPT-4V信任度的多模态大语言模型

使用方式

python from datasets import load_dataset data = load_dataset("openbmb/RLAIF-V-Dataset")

引用

bibtex @article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }

@article{yu2024rlaifv, title={RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness}, author={Tianyu Yu and Haoye Zhang and Qiming Li and Qixin Xu and Yuan Yao and Da Chen and Xiaoman Lu and Ganqu Cui and Yunkai Dang and Taiwen He and Xiaocheng Feng and Jun Song and Bo Zheng and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
RLAIF-V-Dataset的构建过程基于多模态反馈数据,涵盖了83,132对偏好数据。这些数据源自多个知名数据集,如MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA和TextVQA。通过整合这些数据,并结合RLHF-V引入的图像描述提示,构建了一个高质量的多模态反馈数据集。数据集的构建旨在通过多样化的指令和反馈,提升模型的信任度和泛化能力。
特点
RLAIF-V-Dataset的特点在于其大规模和多模态的特性。数据集不仅包含了丰富的图像和文本对,还提供了详细的偏好反馈,涵盖了“选择”和“拒绝”两种响应。此外,数据集的多样性和高质量反馈使其能够显著提升多模态大语言模型的信任度。实验结果表明,基于该数据集训练的模型在信任度和通用性能上均表现出色,超越了现有的开源和专有模型。
使用方法
使用RLAIF-V-Dataset时,可以通过Hugging Face的`datasets`库轻松加载数据。用户只需调用`load_dataset`函数,指定数据集名称即可获取包含图像、问题、选择响应、拒绝响应等字段的数据。加载后的数据可直接用于多模态大语言模型的训练和评估,帮助提升模型的信任度和泛化能力。
背景与挑战
背景概述
RLAIF-V-Dataset是由清华大学等机构的研究团队于2024年发布的大规模多模态偏好数据集,旨在通过高质量的多模态反馈提升多模态大语言模型(MLLMs)的可信度。该数据集包含83,132对偏好数据,涵盖了MSCOCO、ShareGPT-4V、MovieNet等多个知名数据集的指令,并结合了RLHF-V中引入的图像描述提示。通过训练该数据集,模型在可信度方面显著优于开源和专有模型,推动了多模态模型在真实场景中的应用。
当前挑战
RLAIF-V-Dataset的构建面临两大挑战。首先,多模态数据的对齐与整合需要处理图像、文本和反馈之间的复杂关系,确保数据的一致性和高质量。其次,偏好数据的生成依赖于人工或模型标注,如何保证标注的准确性和多样性是一个关键问题。此外,数据集的规模庞大,对存储、计算资源和模型训练效率提出了更高要求,如何在有限资源下高效利用数据也是亟待解决的难题。
常用场景
经典使用场景
RLAIF-V-Dataset作为一个大规模多模态偏好数据集,广泛应用于视觉问答(VQA)和多模态语言模型(MLLM)的训练与评估。通过提供高质量的偏好对数据,该数据集能够帮助模型在生成图像描述和回答问题时,更好地理解图像与文本之间的复杂关系。其经典使用场景包括模型对齐、信任度提升以及多模态任务的性能优化。
实际应用
在实际应用中,RLAIF-V-Dataset被用于训练和优化多模态语言模型,如MiniCPM-V系列和RLAIF-V系列模型。这些模型在医疗影像分析、自动驾驶、智能客服等领域展现了卓越的性能。通过提升模型的信任度,该数据集为实际应用场景中的决策支持系统提供了更可靠的文本和图像生成能力。
衍生相关工作
RLAIF-V-Dataset的发布催生了一系列相关研究工作,包括MiniCPM-V系列模型和RLAIF-V系列模型的开发。这些模型在信任度和性能上均超越了现有的开源和专有模型。此外,该数据集还启发了更多关于多模态对齐和细粒度反馈的研究,推动了多模态语言模型领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

PeMS data-sets

该数据集来自Caltrans Performance Measurement System (PeMS),存储在PeMS Data Clearinghouse中,用于交通数据分析。数据集通过浏览器扩展批量下载,并加载到内部SQL服务器实例中进行进一步处理和汇总。

github 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录