Skywork-VL Reward

Name: Skywork-VL Reward
Creator: 昆仑万维
Published: 2025-05-12 14:23:08
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://huggingface.co/Skywork/Skywork-VL-Reward-7B

下载链接

链接失效反馈

官方服务：

资源简介：

Skywork-VL Reward是一个大规模的多模态偏好数据集，涵盖了广泛的任务和场景。数据集包含了从标准视觉-语言模型（VLMs）和先进的VLM推理器收集的响应。数据集的创建过程包括三个阶段的数据整理和筛选，最终构建了一个包含约190,000个比较样本的数据集，其中约70%包含图像。该数据集是迄今为止最大和最多样化的多模态偏好集合之一，是Skywork-VL Reward模型强大的泛化能力的核心。

Skywork-VL Reward is a large-scale multimodal preference dataset covering a wide range of tasks and scenarios. The dataset contains responses collected from both standard vision-language models (VLMs) and state-of-the-art VLM reasoners. Its construction involves three stages of data organization and filtering, ultimately resulting in a dataset with approximately 190,000 comparative samples, about 70% of which include images. To date, this dataset is one of the largest and most diverse multimodal preference collections, and it is central to the strong generalization capabilities of the Skywork-VL Reward model.

提供机构：

昆仑万维

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

Skywork-VL Reward数据集的构建过程融合了多源开放数据与内部标注资源，通过三阶段精细筛选流程实现。研究团队整合了LLaVA-Critic-113k、Skywork-Reward-Preference-80Kv0.2和RLAIF-V-Dataset三个核心开源数据集，覆盖从基础图像描述到复杂推理的多样化任务场景。特别值得注意的是，团队额外构建了包含5万对偏好比较的专有推理数据集，涉及数学、物理等学科的多模态问题，通过人工标注确保推理质量的评估准确性。数据经过语义去重、置信度过滤及代理奖励模型评分优化后，最终形成包含19万样本的高质量数据集，其中70%包含视觉模态信息。

特点

该数据集最显著的特点是其在多模态偏好建模领域的广度和深度创新。作为当前规模最大、多样性最丰富的多模态偏好集合之一，它同时涵盖视觉-语言理解和复杂推理两个关键维度。数据集特别强化了对VLM推理器的评估能力，通过两阶段生成策略（直接生成与两步生成）构建的推理响应，有效捕捉了多模态推理链中的关键质量信号。此外，数据标注过程中引入GPT-4o响应再生机制，显著提升了偏好判断的清晰度与一致性，为奖励模型训练提供了高信噪比的学习信号。

使用方法

Skywork-VL Reward数据集的核心应用在于训练具有人类偏好对齐能力的多模态奖励模型。研究人员基于Qwen2.5-VL-7B-Instruct架构，通过替换语言建模头为全连接奖励头，采用两阶段微调策略：第一阶段专注多模态偏好数据以建立视觉-语言对齐能力，第二阶段融合纯文本数据增强泛化性。训练采用基于成对排序损失的监督学习范式，通过最大化优选与次选响应的得分差异实现偏好建模。该数据集衍生的奖励信号被证明能有效提升混合偏好优化（MPO）的训练效果，在MathVista基准上使模型性能提升4.3个百分点，凸显其在增强多模态推理能力方面的实用价值。

背景与挑战

背景概述

Skywork-VL Reward是由Skywork AI和昆仑万维（Kunlun Inc.）的研究团队于2025年提出的多模态奖励模型，旨在解决视觉语言模型（VLMs）在理解和推理任务中的行为与人类偏好对齐的挑战。该模型基于Qwen2.5-VL-7B-Instruct架构，通过构建大规模多模态偏好数据集和两阶段微调策略，实现了对标准VLMs和高级VLM推理器输出的全面评估。其技术核心包括集成奖励头和采用成对排序损失函数，显著提升了多模态对齐的可靠性和通用性。该模型的发布推动了多模态奖励建模领域的透明性和可复现性发展。

当前挑战

Skywork-VL Reward面临的挑战主要体现在两个方面：领域问题方面，现有模型难以泛化至多样化任务，且对具有复杂推理能力的VLM评估效果有限；构建过程方面，需解决多模态偏好数据稀缺、标注一致性维护，以及视觉与语言模态深度融合的技术难题。具体包括：1) 跨领域任务评估的通用性不足；2) 高级推理能力量化指标的缺失；3) 大规模多模态数据清洗与对齐的复杂度；4) 奖励信号在长链推理中的衰减问题。

常用场景

经典使用场景

Skywork-VL Reward数据集在视觉-语言模型（VLMs）的评估与优化中展现出显著价值。其构建的大规模多模态偏好数据集，覆盖从基础图像描述到复杂推理场景的广泛任务，为模型提供了丰富的训练信号。该数据集特别适用于评估标准VLMs和高级VLM推理器的输出质量，通过整合公开数据集与内部标注，确保了数据的多样性和高质量。实验证明，基于此数据集训练的奖励模型在VL-RewardBench上达到了最先进的性能，同时在纯文本场景中保持竞争力。

实际应用

在实际应用中，Skywork-VL Reward数据集为多模态模型的强化学习训练提供了关键支持。其生成的偏好数据被证明能有效用于混合偏好优化（MPO），显著提升模型的推理能力。例如，在MathVista数学视觉推理基准测试中，使用该数据集训练的模型性能从69.2%提升至73.5%。此外，数据集还被用于检测视觉幻觉、优化长链推理输出，以及增强模型在医疗、教育等垂直领域的专业表现。

衍生相关工作

该数据集衍生了一系列重要研究工作，包括混合偏好优化（MPO）框架的改进、视觉过程奖励模型VisualPRM的开发，以及多模态链式推理模型Skywork R1V的优化。基于其构建的奖励信号还被应用于IXC-2.5-Reward-7B等开源模型，推动了多模态对齐技术的发展。相关成果发表在VL-RewardBench和RewardBench等权威评测中，形成了从数据构建到模型优化的完整技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集