Ground-R1
收藏Ground-R1 数据集概述
基本信息
- 数据集名称: Ground-R1
- 论文标题: Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning
- 论文链接: https://arxiv.org/abs/2505.20272
- Hugging Face 数据集链接: https://huggingface.co/datasets/ZHZ2002/Ground-R1
- 代码仓库: https://github.com/zzzhhzzz/Ground-R1
- 许可证: Apache 2.0
数据集简介
Ground-R1 是一个基于强化学习的视觉推理框架,旨在通过奖励机制激励模型生成基于视觉证据的响应,而无需依赖昂贵的标注(如边界框标注、思维链标注或外部工具调用)。
关键特性
- 无监督证据生成: 通过强化学习框架生成证据区域,无需显式标注。
- 解耦推理过程: 将证据区域生成与答案合成解耦,提高可解释性。
- 多任务性能: 在多个视觉推理基准测试中表现优异。
数据集内容
- 训练数据: 包含在 Hugging Face 仓库中的 Visual-CoT 数据集。
- 评估数据: 包括 LVLM 基准测试和 RefCOCO 系列数据集。
性能表现
- VisCoT 基准测试:
- 平均准确率比基线模型 Qwen2.5-VL-7B 高 9.2%。
- 在 TextVQA 和 GQA 上分别比 CogCoM 高 24.2% 和 21.0%。
- 通用基准测试:
- 在 MME 基准测试中,比 Qwen2.5-VL-7B 和 Vision-R1-7B 分别高 33.9 和 54.7 分。
- 视觉定位能力:
- 在 RefCOCO val 上达到 92.9% 的准确率。
安装与使用
-
安装: bash git clone https://github.com/zzzhhzzz/Ground-R1.git cd Ground-R1 conda create --name ground-r1 python=3.10 conda activate ground-r1 bash setup.sh
-
训练: bash bash scripts/run_grpo_video.sh
-
评估:
-
VisCoT 基准测试: bash bash eval/multi_baseline.sh bash eval/multi_Ground_R1.sh
-
LVLM 基准测试: bash bash eval_general_dataset/multi_Ground_R1.sh
-
视觉定位基准测试: bash bash eval/multi_RefCOCO.sh
-
引用
bibtex @article{cao2025ground, title={Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning}, author={Cao, Meng and Zhao, Haoze and Zhang, Can and Chang, Xiaojun and Reid, Ian and Liang, Xiaodan}, journal={arXiv preprint arXiv:2505.20272}, year={2025} }




