vision-feedback-mix-binarized

Hugging Face2024-07-14 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wangclnlp/vision-feedback-mix-binarized

下载链接

链接失效反馈

官方服务：

资源简介：

数据集Vision-Feedback-Mix-Binarized旨在提供大规模的视觉反馈数据。它结合了多个高质量的视觉反馈数据集，包括zhiqings/LLaVA-Human-Preference-10K、MMInstruction/VLFeedback、YiyangAiLab/POVID_preference_data_for_VLLMs、openbmb/RLHF-V-Dataset和openbmb/RLAIF-V-Dataset。数据集的格式包括样本ID、原始数据集来源、图像、图像路径和对话记录。数据标准化过程中，对vlfeedback数据集进行了基于平均分数的排序和二值化处理，对LLaVA-RLHF数据集进行了对话格式的统一转换。该数据集可用于训练视觉奖励模型或进行DPO训练，以对齐视觉大型语言模型。

创建时间：

2024-07-13

原始信息汇总

数据集卡片：Vision-Feedback-Mix-Binarized

简介

本数据集旨在提供大规模的视觉反馈数据。它结合了以下高质量的视觉反馈数据集：

zhiqings/LLaVA-Human-Preference-10K：9,422个样本
MMInstruction/VLFeedback：80,258个样本
YiyangAiLab/POVID_preference_data_for_VLLMs：17,184个样本
openbmb/RLHF-V-Dataset：5,733个样本
openbmb/RLAIF-V-Dataset：83,132个样本

我们还提供了一个清洗版本的数据集：wangclnlp/vision-feedback-mix-binarized-cleaned。

混合反馈数据格式描述

bash { "id": int, # 样本ID "origin_pre_dataset": string, # 反馈数据集的来源 "image": Image, # 图像 "image_path": string, # 图像路径 "conversations": string # 对话 # [{"from": "human","value": "一个提示或历史对话"},{"from": "gpt","preference_values": ["首选输出", "非首选输出"]}] }

标准化数据格式的流程

以下是一些特殊的标准化数据格式流程：

在vlfeedback数据集中，我们根据帮助性、伦理考虑和视觉忠实度的平均分数对所有候选输出进行排序。此外，为了创建vlfeedback二值化版本，我们选择平均分数最高的输出作为首选输出，并随机选择剩余输出中的一个作为非首选输出。
在LLaVA-RLHF数据集中，为了统一单轮对话格式，我们将历史对话转换为一个“提示字符串”，通过合并对话角色（USER: 和ASSISTANT:）。

使用方法

您可以下载此数据集来训练视觉奖励模型或进行DPO训练，以对齐视觉大型语言模型。我们推荐使用Vision-LLM-Alignment，它提供了专门为训练视觉LLMs设计的SFT、奖励模型训练和RLHF/DPO代码。它可以直接加载数据集，只需进行简单的文件格式转换。

限制

我们最初混合了这些视觉反馈数据而未进行过滤。我们正在过滤这个大规模的视觉反馈数据，以减少样本大小并提高数据集的整体质量。过滤后的版本将很快发布。

搜集汇总

数据集介绍

构建方式

Vision-Feedback-Mix-Binarized数据集通过整合多个高质量视觉反馈数据集构建而成，包括LLaVA-Human-Preference-10K、VLFeedback、POVID_preference_data_for_VLLMs、RLHF-V-Dataset和RLAIF-V-Dataset。在数据标准化过程中，针对不同来源的数据集进行了特殊处理。例如，在VLFeedback数据集中，基于帮助性、伦理考量和视觉忠实度的平均得分对候选输出进行排序，并选择得分最高的输出作为首选输出，随机选择一个其他输出作为次选输出。此外，LLaVA-RLHF数据集中的对话格式被统一为单轮对话格式，通过引入对话角色（如USER和ASSISTANT）将历史对话转换为提示字符串。

特点

该数据集的特点在于其大规模和高多样性，涵盖了多种视觉反馈场景。数据集中的每个样本包含图像、图像路径以及对话内容，对话内容中明确标注了人类提示和模型输出的偏好值。这种结构化的数据格式为视觉奖励模型的训练和视觉大语言模型的对齐提供了丰富的基础。此外，数据集还提供了清理版本，进一步提升了数据的质量和可用性。

使用方法

Vision-Feedback-Mix-Binarized数据集可用于训练视觉奖励模型或进行DPO训练，以对齐视觉大语言模型。推荐使用Vision-LLM-Alignment工具包，该工具包提供了专门为视觉大语言模型设计的SFT、奖励模型训练和RLHF/DPO代码。用户只需进行简单的文件格式转换即可直接加载数据集。此外，数据集的使用还可结合相关文献中的方法，进一步提升模型在视觉反馈任务中的表现。

背景与挑战

背景概述

Vision-Feedback-Mix-Binarized数据集是一个专注于视觉反馈的大规模数据集，旨在为视觉大语言模型（Vision LLMs）的训练提供高质量的反馈数据。该数据集由多个高质量的子数据集组合而成，包括LLaVA-Human-Preference-10K、VLFeedback、POVID_preference_data_for_VLLMs、RLHF-V-Dataset和RLAIF-V-Dataset，涵盖了总计超过19万条样本。该数据集的创建时间可追溯至2023年，由多个研究团队共同贡献，主要研究人员包括Yifu Huo和Yang Gan等。其核心研究问题在于如何通过人类偏好反馈和强化学习技术，提升视觉大语言模型在生成任务中的表现。该数据集在视觉与语言对齐领域具有重要影响力，为相关研究提供了丰富的数据支持。

当前挑战

Vision-Feedback-Mix-Binarized数据集在构建和应用过程中面临多重挑战。首先，数据来源的多样性导致格式不统一，需要通过复杂的标准化流程将不同子数据集整合为一致的格式。例如，VLFeedback数据集中的候选输出需要根据多个指标（如帮助性、伦理性和视觉忠实度）进行排序和二元化处理。其次，数据规模庞大且质量参差不齐，尽管数据集提供了过滤版本以提升质量，但初始未过滤版本可能包含噪声数据，影响模型训练效果。此外，如何有效利用这些反馈数据进行视觉奖励模型训练或直接偏好优化（DPO）训练，仍需要进一步探索和优化。这些挑战不仅体现在数据处理层面，也延伸至模型训练和评估的实际应用中。

常用场景

经典使用场景

在视觉反馈领域，vision-feedback-mix-binarized数据集被广泛用于训练视觉奖励模型和进行直接偏好优化（DPO）训练。通过整合多个高质量的视觉反馈数据集，该数据集为研究人员提供了一个统一的平台，用于评估和优化视觉大语言模型的输出质量。特别是在视觉语言模型的对齐任务中，该数据集通过提供丰富的图像和对话数据，帮助模型更好地理解人类偏好，从而生成更符合用户期望的视觉描述。

衍生相关工作

vision-feedback-mix-binarized数据集的发布催生了一系列相关研究工作，特别是在视觉语言模型对齐和视觉反馈优化领域。例如，基于该数据集的[Vision-LLM-Alignment](https://github.com/wangclnlp/Vision-LLM-Alignment)项目，提供了从监督微调（SFT）到奖励模型训练和RLHF/DPO的全套工具链，极大地简化了视觉语言模型的训练流程。此外，该数据集还促进了多个学术论文的发表，如LLaVA-RLHF、VLFeedback和POVID等，进一步推动了视觉反馈领域的研究进展。

数据集最近研究