Ocean-R1 Training Text Dataset, Ocean-R1 Training Visual Dataset
收藏Ocean-R1 数据集概述
数据集简介
Ocean-R1 是一个开放且通用的超大视觉-语言模型,通过强化学习增强其推理能力。该数据集主要关注视觉识别、定位以及推理任务,旨在结合视觉感知与大型语言模型(LLM)强大的推理能力,解决复杂的跨模态推理问题。
数据集组成
数据集用途
该数据集用于训练 Qwen2.5-VL-3B-Instruct 模型,通过以下方式:
- 文本训练:使用基于规则的奖励函数的 GRPO 进行训练。
- 视觉训练:使用基于规则的奖励函数的 GRPO 进行训练。
- 多模态训练:结合文本和视觉数据集进行训练。
实验结果
- 文本训练提高了几何推理和数学问题解决等任务的表现,但视觉感知任务的表现下降。
- 视觉训练在计数、几何推理、定位、数学问题解决和通用任务上取得了显著性能提升。
数据集获取
- 训练数据可以从以下链接下载:
数据集评价
模型在多个任务上进行了评估,包括 SuperCLEVR、GEOQA、RefCOCO/+/g、MathVision、MathVerse、OlympiadBench 和 MMMU。
待办事项
- 训练结合数据集
- 合成更多高质量、多样化的跨模态数据
- 扩展到更大模型和更多通用任务
致谢
感谢 DeepSeek、Open-R1、QwenVL、Open-R1-Multimodal、R1-V、VLM-R1、CLEVR、SuperCLEVR、G-LLAVA 和 RefCOCO 等项目提供的开源资源。
贡献者和引用
贡献者:Lingfeng Ming、Youwei Zhang、Yadong Li、Song Chen、Jianhua Xu、Zenan Zhou、Weipeng Chen。
如果发现此工作有用,请按照以下格式引用: bib @misc{ming2025openvr1, author = {Lingfeng Ming, Youwei Zhang, Yadong Li, Song Chen, Jianhua Xu, Zenan Zhou, Weipeng Chen}, title = {Ocean-R1: An Open and Generalizable Large Vision-Language Model enhanced by Reinforcement Learning}, howpublished = {url{https://github.com/fengzi258/Ocean-R1}}, note = {Accessed: 2025-03-10}, year = {2025} }




