VaPR

Name: VaPR
Creator: 美国加州大学洛杉矶分校计算机科学系、亚马逊公司
Published: 2025-10-02 14:10:43
License: 暂无描述

arXiv2025-10-02 更新2025-11-20 收录

下载链接：

https://hf-mirror.com/datasets/VaPR-UCLA/vapr-30k

下载链接

链接失效反馈

官方服务：

资源简介：

VaPR数据集是一个包含30,000个高质量样本的数据集，用于微调大型视觉语言模型（LVLMs）。该数据集基于LLaVA-665K SFT数据集构建，每个样本包含一个真实答案和一个生成的错误答案，这两个答案在风格和长度上相似，但内容不同。VaPR数据集旨在解决现有数据集中存在的风格和长度偏差问题，并通过引入针对性强干扰来提高LVLMs的推理能力。VaPR数据集可用于提高LVLMs在各种任务上的表现，包括开放式指令跟随、视觉推理、学术和数学任务、幻觉检测和对抗性鲁棒性。

The VaPR dataset is a high-quality dataset containing 30,000 samples, designed for fine-tuning Large Vision-Language Models (LVLMs). It is constructed based on the LLaVA-665K SFT dataset. Each sample includes a ground-truth answer and a generated incorrect answer, which are similar in style and length but differ in content. The VaPR dataset aims to address the style and length biases existing in current datasets, and enhance the reasoning capabilities of LVLMs by introducing targeted strong distractors. The VaPR dataset can be used to improve the performance of LVLMs across various tasks, including open-ended instruction following, visual reasoning, academic and mathematical tasks, hallucination detection, and adversarial robustness.

提供机构：

美国加州大学洛杉矶分校计算机科学系、亚马逊公司

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

在视觉语言模型对齐领域，VaPR数据集通过创新性的硬负样本生成框架构建而成。该框架基于LLM引导的响应编辑技术，从LLaVA-665K监督微调数据集中筛选并分类样本，覆盖感知、推理等十类任务。通过任务特定的提示机制，对真实响应进行最小化语义扰动，生成风格与长度高度相似但内容错误的拒绝响应，有效避免了传统合成数据中常见的长度与风格偏差问题。

使用方法

该数据集专为直接偏好优化算法设计，适用于大规模视觉语言模型的微调阶段。使用时将30K样本构建为三元组格式（指令，正例响应，硬负例响应），通过DPO损失函数驱动模型区分细微的语义差异。实践表明，即使在3K小规模数据下，LLaVA系列模型即可获得显著提升，而Qwen系列模型则在大规模数据下表现更优。该框架还支持开源LLM作为编辑器，为研究者提供闭源API之外的替代方案。

背景与挑战

背景概述

VaPR数据集由加州大学洛杉矶分校与亚马逊公司于2025年联合研发，聚焦于大视觉语言模型的偏好对齐与推理能力优化。该数据集通过引入基于大语言模型引导的响应编辑框架，构建了包含3万高质量样本的合成偏好数据，旨在解决传统方法中因风格与长度偏差导致的噪声问题。其核心研究在于提升模型在感知、空间推理、计数等任务中的对齐精度，显著推动了多模态推理领域的发展，并在十大基准测试中实现了模型性能的突破性提升。

当前挑战

在视觉语言模型偏好对齐领域，主要挑战包括模型易受合成标注中风格与长度偏差干扰，导致奖励黑客行为与泛化能力下降。构建过程中，需克服硬负样本生成的语义控制难题，确保扰动响应在保持风格长度一致性的同时注入定向错误。此外，数据集的多样性与平衡性要求覆盖感知、推理等十类任务，并需通过动态惩罚列表等技术避免生成值的重复，以保障样本质量与有效性。

常用场景

经典使用场景

在视觉语言模型对齐领域，VaPR数据集通过构建风格和长度相似但内容错误的硬负样本对，为大视觉语言模型的偏好优化提供了关键训练数据。该数据集最经典的应用场景是作为直接偏好优化（DPO）算法的训练素材，通过30K高质量样本对LLaVA、Qwen2VL和Qwen2.5VL等主流模型进行微调，显著提升了模型在感知、推理等任务上的表现。其独特的硬负样本生成框架能够有效避免模型学习长度和风格偏差，使优化过程聚焦于语义内容的对齐。

解决学术问题

VaPR数据集主要解决了合成偏好标注中普遍存在的风格和长度偏差问题，这一挑战长期困扰着视觉语言模型的偏好对齐研究。通过LLM引导的响应编辑技术，该数据集构建了内容错误但风格长度保持一致的负样本，有效防止了DPO算法对表面线索的利用。在学术意义上，它不仅提升了模型在十项基准测试中的平均性能（LLaVA提升6.5%，Qwen2VL提升4.0%），更重要的是为视觉语言组合性研究提供了新的数据构建范式，推动了模态对齐理论的发展。

实际应用

在实际应用层面，经VaPR优化的模型在开放问答、视觉中心推理和对抗性测试等场景表现出显著优势。特别是在需要精细感知的工业质检、需要空间推理的自动驾驶视觉系统、以及需要抗干扰能力的医疗影像分析等领域，这些模型展现出更强的鲁棒性和准确性。此外，在减少二元问题中的“是”偏向方面，VaPR模型有效改善了智能助手的对话质量，使其在客服、教育等实际应用场景中提供更平衡可靠的回答。

数据集最近研究