Visual-RFT
收藏github2025-03-10 更新2025-03-05 收录
下载链接:
https://github.com/Liuziyu77/Visual-RFT
下载链接
链接失效反馈官方服务:
资源简介:
Visual-RFT是一个将Deepseek-R1的强化学习策略扩展到多模态领域的综合适应方法。我们使用Qwen2-VL-2/7B模型作为基础模型,并设计了一个基于规则的验证性奖励,该奖励被集成到一个基于GRPO的强化微调框架中,以提高各种视觉感知任务中LVLM的性能。ViRFT扩展了R1的推理能力,使其能够处理多种视觉感知任务,包括各种检测任务,如开放词汇检测、小样本检测、推理定位和细粒度图像分类。
Visual-RFT is a comprehensive adaptation approach that extends the reinforcement learning strategy of Deepseek-R1 to the multimodal domain. We utilize Qwen2-VL-2/7B as the base model, and design a rule-based verificatory reward, which is integrated into a GRPO-based reinforcement fine-tuning framework to improve the performance of LVLM across various visual perception tasks. ViRFT expands the reasoning capabilities of Deepseek-R1, enabling it to handle a wide spectrum of visual perception tasks, including diverse detection tasks such as open-vocabulary detection, few-shot detection, reasoning-based localization, and fine-grained image classification.
创建时间:
2025-02-24
原始信息汇总
Visual-RFT 数据集概述
数据集名称
Visual-RFT: Visual Reinforcement Fine-Tuning
数据集描述
Visual-RFT 是一种将 DeepSeek R1 的强化学习策略扩展到多模态领域的综合适应方法。它使用 Qwen2-VL-2/7B 模型作为基模型,并设计了一种基于规则的验证性奖励,该奖励被集成到一个基于 GRPO 的强化微调框架中,以提升 LVLMs 在各种视觉感知任务上的性能。ViRFT 将 R1 的推理能力扩展到多种视觉感知任务,包括开放词汇检测、小样本检测、推理定位和细粒度图像分类。
数据集亮点
- Visual Reinforcement Fine-tuning (Visual-RFT): 通过在有限数据上有效的验证性奖励,扩展了强化学习在视觉感知任务上的应用。
- Verified Rewards: 设计了不同任务的验证性奖励,以高效、高质量地计算奖励,实现了 DeepSeek R1 风格的强化学习策略在多模态领域的无缝迁移。
- Extensive Experiments: 在各种视觉感知任务上进行了广泛实验,包括细粒度图像分类、开放词汇对象检测、小样本对象检测和推理定位。
- Open Source: 完全开源了训练代码、训练数据和评估脚本,以促进进一步研究。
数据集组成
- laolao77/ViRFT_COCO: 包含 COCO 数据集中的所有类别,总计 6k 条记录。
- laolao77/ViRFT_COCO_base65: 包含 COCO 数据集中的 65 个基本类别,总计 6k 条记录。
- laolao77/ViRFT_COCO_8_cate_4_shot: 包含 COCO 数据集中的 8 个选定类别。
- laolao77/ViRFT_LVIS_few_shot: 包含 COCO 数据集中的 6 个选定类别。
- laolao77/ViRFT_CLS_flower_4_shot: 包含 Flower102 数据集中的 102 个类别,每个类别 4 张图像。
- laolao77/ViRFT_CLS_fgvc_aircraft_4_shot: 包含 FGVC-Aircraft 数据集中的 100 个类别,每个类别 4 张图像。
- laolao77/ViRFT_CLS_car196_4shot: 包含 Stanford Cars 数据集中的 196 个类别,每个类别 4 张图像。
- laolao77/ViRFT_CLS_pets37_4shot: 包含 Pets37 数据集中的 37 个类别,每个类别 4 张图像。
使用许可
代码许可:Apache 2.0
数据许可:CC By NC 4.0
使用和数据许可说明:数据和代码仅供研究使用。
搜集汇总
数据集介绍

构建方式
Visual-RFT Datasets是由多个视觉感知任务的数据集组成,包括细粒度图像分类、开放词汇对象检测、少样本对象检测和推理接地等。该数据集通过整合Deepseek-R1的强化学习策略,采用基于规则的验证奖励机制,并融入GRPO强化微调框架,以提升LVLMs在多种视觉感知任务中的性能。
使用方法
使用该数据集时,用户需先从Huggingface平台下载对应任务的训练数据集。之后,用户可以根据提供的bash脚本来配置和启动训练过程。训练过程中,若遇到内存不足问题,可以通过调整配置文件中的相关参数来解决。此外,数据集还提供了详细的评估代码和教程,方便用户进行模型性能的评估。
背景与挑战
背景概述
Visual-RFT Datasets是由Liuziyu77、Zeyi Sun等研究人员于2025年创建的一种新型视觉强化微调数据集。该数据集旨在将Deepseek-R1的强化学习策略全面适配至多模态领域,运用Qwen2-VL-2/7B模型作为基础模型,并设计了一种基于规则的验证奖励机制,融入GRPO-based强化微调框架中,以提升LVLMs在各类视觉感知任务中的性能。ViRFT扩展了R1的推理能力,使其能够应对多种视觉感知任务,包括开放词汇检测、小样本检测、推理定位和细粒度图像分类等。
当前挑战
该数据集在构建过程中所遇到的挑战主要包括:1)如何在多模态领域中有效扩展强化学习策略;2)如何设计高效的验证奖励机制以适应不同的视觉任务;3)如何在有限的数据上进行微调以实现模型性能的显著提升。此外,该数据集在解决领域问题时面临的挑战包括:如何通过强化学习实现细粒度图像分类、开放词汇对象检测等视觉任务的精确推理和定位。
常用场景
经典使用场景
Visual-RFT Datasets被广泛应用于视觉强化微调领域,其经典使用场景包括对各种视觉感知任务进行强化学习微调,如开放词汇检测、少样本检测、推理定位和细粒度图像分类等。
解决学术问题
该数据集解决了在有限数据情况下,传统微调方法性能提升受限的问题。通过引入基于视觉的强化学习策略,Visual-RFT Datasets能够有效提升大型视觉语言模型在多种视觉任务上的性能,即使在数据量较小的情况下也能实现显著的效果。
实际应用
在实际应用中,Visual-RFT Datasets可用于提升计算机视觉系统的智能感知能力,例如在自动驾驶系统中用于识别和分类道路对象,在智能监控系统中用于识别异常行为,以及在医疗影像分析中辅助诊断。
数据集最近研究
最新研究方向
Visual-RFT数据集近期的研究方向主要集中于将深度强化学习策略应用于多模态领域,特别是在视觉感知任务上。通过引入基于规则的可验证奖励机制,该研究将DeepSeek R1的强化学习策略无缝转移至多模态领域,实现了在有限数据条件下的微调性能提升。研究涵盖了细粒度图像分类、开放式词汇对象检测、小样本对象检测以及推理定位等多个视觉感知任务,显著超越了监督微调基线。
以上内容由遇见数据集搜集并总结生成



