five

RLAIF-V-Bias-Dataset|多模态模型数据集|模态偏差数据集

收藏
huggingface2024-12-16 更新2024-12-17 收录
多模态模型
模态偏差
下载链接:
https://huggingface.co/datasets/Starrrrrry/RLAIF-V-Bias-Dataset
下载链接
链接失效反馈
资源简介:
RLAIF-V-Bias-Dataset是一个基于RLAIF-V-Dataset构建的数据集,旨在通过LLaVA-v1.5-7b模型解决多模态大语言模型(MLLMs)中的模态偏差问题。该数据集提供了83,132个高质量的偏好对,指令来自多个数据集,包括MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA和TextVQA。此外,还采用了RLHF-V中引入的图像描述提示作为长格式图像字幕指令。为了生成语言偏差和视觉偏差的答案,指导LLaVA-v1.5-7b模型生成依赖于文本模态的答案('question_only')和依赖于视觉模态的答案('image_only')。在生成偏差响应的过程中,由于模型的预训练知识和拒绝响应,可能会产生大量噪声样本。为了应对数据中的噪声,提出了噪声感知偏好优化(NaPO)。数据集包含多个字段,如数据集名称、图像、问题、选择的响应、拒绝的响应、原始数据集、原始分割、数据索引、图像路径、语言偏差响应和视觉偏差响应。
创建时间:
2024-12-10
原始信息汇总

RLAIF-V-Bias-Dataset

概述

RLAIF-V-Bias-Dataset 是基于 RLAIF-V-Dataset 构建的,旨在通过 LLaVA-v1.5-7b 模型缓解多模态大语言模型(MLLMs)中的模态偏差问题。

  • RLAIF-V-Dataset 提供了 83,132 个偏好对,指令来源于多个数据集,包括 MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA 和 TextVQA。此外,采用了 RLHF-V 中引入的图像描述提示作为长格式图像字幕指令。

  • 在此基础上,引导 LLaVA-v1.5-7b 生成语言偏差答案(“question_only”)和视觉偏差答案(“image_only”)。在生成偏差响应的过程中,模型预训练知识和拒绝响应可能导致大量噪声样本的生成。

数据处理

为了应对数据中的噪声,提出了 Noise-Aware Preference Optimization (NaPO) 方法。

数据字段

描述
0 ds_name:数据集名称。
1 image:包含路径和字节的字典,加载数据集时可自动转换为 PIL 图像。
2 question:MLLMs 的输入查询。
3 chosen:问题的被选响应。
4 rejected:问题的被拒绝响应。
5 origin_dataset:图像或问题的原始数据集。
6 origin_split:每个数据项的元信息,包括生成被选和被拒绝答案对的模型名称、提供反馈的标注模型以及问题类型(“详细描述”或“问答”)。
7 idx:数据索引。
8 image_path:图像路径。
9 image_only:语言偏差响应。
10 question_only:视觉偏差响应。

使用方法

python from datasets import load_dataset

data = load_dataset("Starrrrrry/RLAIF-V-Bias-Dataset")

引用

相关论文将在后续发布。

AI搜集汇总
数据集介绍
main_image_url
构建方式
RLAIF-V-Bias-Dataset 是在 RLAIF-V-Dataset 的基础上构建的,旨在通过 LLaVA-v1.5-7b 模型解决多模态大语言模型(MLLMs)中的模态偏差问题。该数据集利用了包括 MSCOCO、ShareGPT-4V、MovieNet 等在内的多样化数据集,提供了 83,132 对高质量反馈。为了生成模态偏差答案,研究团队引导模型生成过度依赖文本模态的 'question_only' 答案和过度依赖视觉模态的 'image_only' 答案。然而,这一过程中由于模型预训练知识和拒绝响应等问题,产生了大量噪声样本。为此,研究团队提出了噪声感知偏好优化(NaPO)方法来应对数据中的噪声问题。
特点
RLAIF-V-Bias-Dataset 的主要特点在于其针对多模态大语言模型中的模态偏差问题进行了专门设计。数据集包含了从多个高质量数据集中提取的多样化指令,并通过 LLaVA-v1.5-7b 模型生成了具有明显模态偏差的答案。此外,数据集还采用了噪声感知偏好优化(NaPO)方法,有效减少了数据中的噪声,提高了数据质量。数据集的结构清晰,包含了图像、问题、选择答案、拒绝答案等多个字段,便于进行多模态模型的训练和评估。
使用方法
使用 RLAIF-V-Bias-Dataset 可以通过 HuggingFace 的 datasets 库进行加载。用户只需调用 `load_dataset` 函数并指定数据集名称即可。数据集的字段设计合理,包括图像路径、问题、选择答案、拒绝答案等,便于用户进行多模态模型的训练和测试。此外,数据集还提供了原始数据集的元信息,如模型生成答案的类型和标注模型等,有助于用户更好地理解和利用数据。通过该数据集,研究者可以深入研究多模态大语言模型中的模态偏差问题,并探索相应的优化方法。
背景与挑战
背景概述
RLAIF-V-Bias-Dataset 是基于 RLAIF-V-Dataset 构建的,旨在解决多模态语言模型(MLLMs)中的模态偏差问题。该数据集利用了 LLaVA-v1.5-7b 模型,通过生成语言偏差和视觉偏差的答案,来模拟和缓解模态偏差现象。RLAIF-V-Dataset 提供了 83,132 个高质量的偏好对,指令来源于多个数据集,如 MSCOCO、ShareGPT-4V 等,确保了数据的多样性和广泛性。该数据集的构建不仅有助于提升模型的多模态理解能力,还为相关领域的研究提供了宝贵的资源。
当前挑战
RLAIF-V-Bias-Dataset 在构建过程中面临的主要挑战包括模型预训练知识的影响以及模型拒绝响应的问题,这导致了大量噪声样本的产生。为了应对这一挑战,研究团队提出了噪声感知偏好优化(NaPO)方法,以减少数据中的噪声。此外,生成语言偏差和视觉偏差答案的过程也极具挑战性,需要精确控制模型的输出,以确保数据的准确性和可靠性。这些挑战不仅考验了数据集构建的技术能力,也为未来的研究提供了新的方向。
常用场景
经典使用场景
RLAIF-V-Bias-Dataset 主要用于多模态语言模型(MLLMs)中模态偏差问题的研究与缓解。通过引导 LLaVA-v1.5-7b 模型生成语言偏差(question_only)和视觉偏差(image_only)的回答,该数据集为研究者提供了一个系统化的工具,以分析和优化模型在不同模态间的平衡能力。经典使用场景包括模态偏差检测、偏差响应生成以及噪声感知偏好优化(NaPO)算法的训练与验证。
实际应用
在实际应用中,RLAIF-V-Bias-Dataset 可用于开发更加平衡和鲁棒的多模态智能系统。例如,在自动驾驶、医疗影像分析和智能客服等领域,模型的多模态处理能力至关重要。通过使用该数据集进行训练和优化,开发者可以有效减少模型在特定模态上的偏差,提升系统在复杂环境下的表现和可靠性。
衍生相关工作
RLAIF-V-Bias-Dataset 的提出催生了一系列相关研究工作,特别是在多模态学习模型的偏差检测与优化领域。例如,基于该数据集的噪声感知偏好优化(NaPO)算法已成为多模态学习中的重要方法之一。此外,该数据集还为后续研究提供了丰富的实验基础,推动了多模态学习模型在偏差检测、噪声处理和模型鲁棒性提升等方面的深入探索。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录