Ocean-R1 Training Text Dataset, Ocean-R1 Training Visual Dataset

github2025-03-12 更新2025-03-13 收录

下载链接：

https://github.com/fengzi258/Ocean-R1

下载链接

链接失效反馈

官方服务：

资源简介：

Ocean-R1训练文本数据集和Ocean-R1训练视觉数据集是用于训练Qwen2.5-VL-3B-Instruct模型的数据集，分别包含文本和视觉数据，使用GRPO和基于规则的奖励函数进行训练。

The Ocean-R1 training text dataset and Ocean-R1 training visual dataset are dedicated datasets designed for training the Qwen2.5-VL-3B-Instruct model. They respectively contain text and visual data, and GRPO and rule-based reward functions are employed during the model training.

创建时间：

2025-03-10

原始信息汇总

Ocean-R1 数据集概述

数据集简介

Ocean-R1 是一个开放且通用的超大视觉-语言模型，通过强化学习增强其推理能力。该数据集主要关注视觉识别、定位以及推理任务，旨在结合视觉感知与大型语言模型（LLM）强大的推理能力，解决复杂的跨模态推理问题。

数据集组成

文本数据集：Ocean-R1 Training Text Dataset
视觉数据集：Ocean-R1 Training Visual Dataset

数据集用途

该数据集用于训练 Qwen2.5-VL-3B-Instruct 模型，通过以下方式：

文本训练：使用基于规则的奖励函数的 GRPO 进行训练。
视觉训练：使用基于规则的奖励函数的 GRPO 进行训练。
多模态训练：结合文本和视觉数据集进行训练。

实验结果

文本训练提高了几何推理和数学问题解决等任务的表现，但视觉感知任务的表现下降。
视觉训练在计数、几何推理、定位、数学问题解决和通用任务上取得了显著性能提升。

数据集获取

训练数据可以从以下链接下载：
- Ocean_R1_collected_visual_data
- Ocean_R1_collected_text_data

数据集评价

模型在多个任务上进行了评估，包括 SuperCLEVR、GEOQA、RefCOCO/+/g、MathVision、MathVerse、OlympiadBench 和 MMMU。

待办事项

训练结合数据集
合成更多高质量、多样化的跨模态数据
扩展到更大模型和更多通用任务

致谢

感谢 DeepSeek、Open-R1、QwenVL、Open-R1-Multimodal、R1-V、VLM-R1、CLEVR、SuperCLEVR、G-LLAVA 和 RefCOCO 等项目提供的开源资源。

贡献者和引用

贡献者：Lingfeng Ming、Youwei Zhang、Yadong Li、Song Chen、Jianhua Xu、Zenan Zhou、Weipeng Chen。

如果发现此工作有用，请按照以下格式引用： bib @misc{ming2025openvr1, author = {Lingfeng Ming, Youwei Zhang, Yadong Li, Song Chen, Jianhua Xu, Zenan Zhou, Weipeng Chen}, title = {Ocean-R1: An Open and Generalizable Large Vision-Language Model enhanced by Reinforcement Learning}, howpublished = {url{https://github.com/fengzi258/Ocean-R1}}, note = {Accessed: 2025-03-10}, year = {2025} }

搜集汇总

数据集介绍

构建方式

Ocean-R1数据集的构建主要采用基于文本和视觉的独立训练以及多模态融合训练。首先，文本数据集通过Goal-Specific Reward Optimization（GRPO）方法与规则基础的奖励函数进行训练；视觉数据集同样采用GRPO训练。进而，将文本和视觉数据集结合，进行多模态数据融合训练，以期望在模型中实现视觉与文本信息的互补，增强模型的推理能力。

特点

该数据集的特点在于其开放性与通用性，专注于提升大规模视觉语言模型在多模态场景下的推理能力。它包含了经过清洁和过滤的社区开源数据，旨在通过多模态训练，解决复杂的推理任务，并平衡模型在不同任务中的性能表现。

使用方法

使用该数据集时，用户可根据需求选择文本、视觉或融合的多模态数据进行训练。数据集的设置与训练可通过提供的脚本和配置文件进行，同时，数据集的评估也提供了相应的脚本，用户可以按照脚本指示进行不同任务的评估测试。

背景与挑战

背景概述

Ocean-R1数据集是由Lingfeng Ming等研究人员于2025年创建的一款开放且通用的视觉-语言模型，旨在通过强化学习技术提升多模态场景下的推理能力。该数据集的构建灵感来源于DeepSeek R1在文本领域强大的推理能力，并尝试将大规模的强化学习技术应用于多模态场景，特别是视觉识别、定位以及推理任务。通过结合视觉感知与大型语言模型（LLM）的推理能力，Ocean-R1旨在解决复杂的多模态推理任务。目前，该数据集包含了文本和视觉两种类型的数据集，并计划发布结合这两种类型的多模态数据集训练结果。

当前挑战

在构建Ocean-R1数据集的过程中，研究人员面临了多个挑战。首先，如何有效地结合视觉和文本信息，以提升模型的推理能力是一个关键问题。其次，训练过程中，模型在特定任务上表现出性能提升的同时，也出现了在需要强烈视觉感知的任务上性能下降的现象，这揭示了模型训练中存在一定的权衡。此外，构建大规模多模态数据集，并确保数据的多样性和高质量，也是一项艰巨的任务。最后，扩大模型规模并应用于更广泛的任务，是未来需要解决的问题。

常用场景

经典使用场景

Ocean-R1数据集通过结合大规模强化学习技术与视觉语言模型，专注于视觉识别、定位以及推理任务，其经典使用场景在于训练具备强大多模态推理能力的大型模型，如Qwen2.5-VL-3B-Instruct。该模型通过数据集的文本和视觉两部分分别进行训练，进而实现复杂多模态推理任务的解决。

衍生相关工作

基于Ocean-R1数据集的研究已经衍生出一系列相关工作，包括对数据集进行的不同模态融合训练策略的探索，以及在不同任务上对模型性能的评估和优化。这些工作进一步推动了视觉语言模型在多模态推理领域的应用和发展。

数据集最近研究