Visual-RFT

github2025-03-10 更新2025-03-05 收录

下载链接：

https://github.com/Liuziyu77/Visual-RFT

下载链接

链接失效反馈

官方服务：

资源简介：

Visual-RFT是一个将Deepseek-R1的强化学习策略扩展到多模态领域的综合适应方法。我们使用Qwen2-VL-2/7B模型作为基础模型，并设计了一个基于规则的验证性奖励，该奖励被集成到一个基于GRPO的强化微调框架中，以提高各种视觉感知任务中LVLM的性能。ViRFT扩展了R1的推理能力，使其能够处理多种视觉感知任务，包括各种检测任务，如开放词汇检测、小样本检测、推理定位和细粒度图像分类。

Visual-RFT is a comprehensive adaptation approach that extends the reinforcement learning strategy of Deepseek-R1 to the multimodal domain. We utilize Qwen2-VL-2/7B as the base model, and design a rule-based verificatory reward, which is integrated into a GRPO-based reinforcement fine-tuning framework to improve the performance of LVLM across various visual perception tasks. ViRFT expands the reasoning capabilities of Deepseek-R1, enabling it to handle a wide spectrum of visual perception tasks, including diverse detection tasks such as open-vocabulary detection, few-shot detection, reasoning-based localization, and fine-grained image classification.

创建时间：

2025-02-24

原始信息汇总

Visual-RFT 数据集概述

数据集名称

Visual-RFT: Visual Reinforcement Fine-Tuning

数据集描述

Visual-RFT 是一种将 DeepSeek R1 的强化学习策略扩展到多模态领域的综合适应方法。它使用 Qwen2-VL-2/7B 模型作为基模型，并设计了一种基于规则的验证性奖励，该奖励被集成到一个基于 GRPO 的强化微调框架中，以提升 LVLMs 在各种视觉感知任务上的性能。ViRFT 将 R1 的推理能力扩展到多种视觉感知任务，包括开放词汇检测、小样本检测、推理定位和细粒度图像分类。

数据集亮点

Visual Reinforcement Fine-tuning (Visual-RFT): 通过在有限数据上有效的验证性奖励，扩展了强化学习在视觉感知任务上的应用。
Verified Rewards: 设计了不同任务的验证性奖励，以高效、高质量地计算奖励，实现了 DeepSeek R1 风格的强化学习策略在多模态领域的无缝迁移。
Extensive Experiments: 在各种视觉感知任务上进行了广泛实验，包括细粒度图像分类、开放词汇对象检测、小样本对象检测和推理定位。
Open Source: 完全开源了训练代码、训练数据和评估脚本，以促进进一步研究。

数据集组成

laolao77/ViRFT_COCO: 包含 COCO 数据集中的所有类别，总计 6k 条记录。
laolao77/ViRFT_COCO_base65: 包含 COCO 数据集中的 65 个基本类别，总计 6k 条记录。
laolao77/ViRFT_COCO_8_cate_4_shot: 包含 COCO 数据集中的 8 个选定类别。
laolao77/ViRFT_LVIS_few_shot: 包含 COCO 数据集中的 6 个选定类别。
laolao77/ViRFT_CLS_flower_4_shot: 包含 Flower102 数据集中的 102 个类别，每个类别 4 张图像。
laolao77/ViRFT_CLS_fgvc_aircraft_4_shot: 包含 FGVC-Aircraft 数据集中的 100 个类别，每个类别 4 张图像。
laolao77/ViRFT_CLS_car196_4shot: 包含 Stanford Cars 数据集中的 196 个类别，每个类别 4 张图像。
laolao77/ViRFT_CLS_pets37_4shot: 包含 Pets37 数据集中的 37 个类别，每个类别 4 张图像。

使用许可

代码许可：Apache 2.0
数据许可：CC By NC 4.0
使用和数据许可说明：数据和代码仅供研究使用。

数据集链接

论文链接

搜集汇总

数据集介绍

构建方式

Visual-RFT Datasets是由多个视觉感知任务的数据集组成，包括细粒度图像分类、开放词汇对象检测、少样本对象检测和推理接地等。该数据集通过整合Deepseek-R1的强化学习策略，采用基于规则的验证奖励机制，并融入GRPO强化微调框架，以提升LVLMs在多种视觉感知任务中的性能。

使用方法

使用该数据集时，用户需先从Huggingface平台下载对应任务的训练数据集。之后，用户可以根据提供的bash脚本来配置和启动训练过程。训练过程中，若遇到内存不足问题，可以通过调整配置文件中的相关参数来解决。此外，数据集还提供了详细的评估代码和教程，方便用户进行模型性能的评估。

背景与挑战

背景概述

Visual-RFT Datasets是由Liuziyu77、Zeyi Sun等研究人员于2025年创建的一种新型视觉强化微调数据集。该数据集旨在将Deepseek-R1的强化学习策略全面适配至多模态领域，运用Qwen2-VL-2/7B模型作为基础模型，并设计了一种基于规则的验证奖励机制，融入GRPO-based强化微调框架中，以提升LVLMs在各类视觉感知任务中的性能。ViRFT扩展了R1的推理能力，使其能够应对多种视觉感知任务，包括开放词汇检测、小样本检测、推理定位和细粒度图像分类等。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括：1)如何在多模态领域中有效扩展强化学习策略；2)如何设计高效的验证奖励机制以适应不同的视觉任务；3)如何在有限的数据上进行微调以实现模型性能的显著提升。此外，该数据集在解决领域问题时面临的挑战包括：如何通过强化学习实现细粒度图像分类、开放词汇对象检测等视觉任务的精确推理和定位。

常用场景

经典使用场景

Visual-RFT Datasets被广泛应用于视觉强化微调领域，其经典使用场景包括对各种视觉感知任务进行强化学习微调，如开放词汇检测、少样本检测、推理定位和细粒度图像分类等。

解决学术问题

该数据集解决了在有限数据情况下，传统微调方法性能提升受限的问题。通过引入基于视觉的强化学习策略，Visual-RFT Datasets能够有效提升大型视觉语言模型在多种视觉任务上的性能，即使在数据量较小的情况下也能实现显著的效果。

实际应用

在实际应用中，Visual-RFT Datasets可用于提升计算机视觉系统的智能感知能力，例如在自动驾驶系统中用于识别和分类道路对象，在智能监控系统中用于识别异常行为，以及在医疗影像分析中辅助诊断。

数据集最近研究