multimodal-open-r1-8k-verified
收藏github2025-01-28 更新2025-02-10 收录
下载链接:
https://github.com/EvolvingLMMs-Lab/open-r1-multimodal
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是第一批开源的8k多模态RL训练示例,专注于数学推理。数据由GPT4o生成,包含推理路径和可验证的答案,基于Math360K和Geo170K。
This dataset represents the first batch of open-source 8k multimodal reinforcement learning training examples, focusing on mathematical reasoning. The data is generated by GPT4o and includes reasoning paths and verifiable answers, based on the Math360K and Geo170K datasets.
创建时间:
2025-01-27
原始信息汇总
Multimodal Open R1 数据集概述
数据集基本信息
- 名称: Multimodal Open R1
- 类型: 多模态RL训练数据集
- 规模: 8k样本
- 领域: 数学推理
- 数据来源: 基于Math360K和Geo170K数据集生成
数据集内容
- 数据由GPT4o生成,包含推理路径和可验证答案
- 专注于数学推理场景
- 提供原始问题和原始答案
- 包含多模态RL训练示例
数据集特点
- 数据可验证性强
- 针对数学多选题设计验证逻辑
- 提供数据生成脚本供用户自定义
数据集获取
- Hugging Face地址: https://huggingface.co/datasets/lmms-lab/multimodal-open-r1-8k-verified
- 数据生成脚本: local_scripts/create_vision_cot_data.py
相关模型
- Qwen2-VL-2B-GRPO-8k: https://huggingface.co/lmms-lab/Qwen2-VL-2B-GRPO-8k
- Qwen2-VL-7B-GRPO-8k: https://huggingface.co/lmms-lab/Qwen2-VL-7B-GRPO-8k
训练信息
- 硬件需求: 8×H100 GPUs(80GB)
- 训练时间: Qwen2-VL-2B模型约10小时/epoch
- 训练框架: 基于GRPO算法
评估方法
- 使用lmms-eval进行评估
- 要求模型首先生成推理步骤再给出最终答案
- 评估基准包括MMMU和Mathvista-mini
已知限制
- 当前数据集仅限于数学场景
- 大规模训练效率有待提高
- 模型有时会跳过推理步骤直接输出答案
搜集汇总
数据集介绍

构建方式
本研究团队基于对huggingface/open-r1和deepseek-ai/DeepSeek-R1的改进,构建了multimodal-open-r1-8k-verified数据集。该数据集的构建主要依赖于GPT4o生成的具有推理路径和可验证答案的数学推理示例,以Math360K和Geo170K为基础,共计8000个训练示例,并提供了用于数据检查和创建的自定义脚本。
特点
multimodal-open-r1-8k-verified数据集的特点在于,它是一个多模态的强化学习训练数据集,专注于数学推理任务。数据集中的问题和解决方案都是由GPT4o生成的,包含推理路径和可验证的答案,这使得数据集在训练过程中能够更好地促进模型对推理过程的掌握。
使用方法
用户可以通过Hugging Face的接口访问multimodal-open-r1-8k-verified数据集,使用提供的脚本创建自己的数据,或在Hugging Face模型库中使用已经训练好的模型进行推理任务。此外,数据集的评估可以通过lmms-eval工具进行,以重现和验证模型的性能。
背景与挑战
背景概述
Multimodal Open R1数据集是在观察R1范式的兴趣日益增长,并研究GRPO算法在'open-r1'和'TRL'中的优雅实现之后,由lmms-lab团队开展的一次速跑测试中创建的。该数据集于近期推出,主要研究人员为lmms-lab团队,其核心研究问题聚焦于多模态模型在数学推理任务上的表现。该数据集的发布对于多模态推理模型领域的研究具有重要意义,推动了相关研究的深入发展。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:1) 多选题验证的必要性,因为许多数学多模态问题都是选择题形式;2) 需要筛选可验证的RL数据,这要求对现有数据的有效转换和GPT4o策划可靠性的进一步探索;3) 当前框架在大规模训练上的效率不高,迫切需要研究如何高效扩展训练;4) 初始模型在推理能力上表现不佳,训练过程中模型快速从'格式'而非'准确性'中获取奖励,这对于整个RL训练来说不是好迹象。此外,社区可能需要策划更好的多模态数据集以用于RL训练,因为当前数据集仅限于数学场景,且具有可验证的答案,尚不清楚如何将RL数据集扩展到具有开放式答案的一般领域。
常用场景
经典使用场景
针对多模态模型R1的探究,本数据集提供了基于数学推理的8k多模态RL训练实例,这些实例通过GPT4o生成,并包含了推理路径和可验证的答案。经典使用场景主要聚焦于数学问题中的多模态推理,通过结合视觉信息和文本描述,模型能够进行更深入的数学逻辑推理,从而提高问题解答的准确性。
实际应用
在实际应用中,该数据集可用于训练多模态模型,以便在数学教育、智能问答系统等领域提供辅助。通过对模型的训练,可以使模型具备处理现实世界中复杂数学问题的能力,从而在教育和科研等领域发挥重要作用。
衍生相关工作
基于本数据集,已衍生出相关的工作,如对多模态RL模型的训练和评估,以及推理步骤的生成与验证等。这些工作进一步推动了多模态模型在数学推理等领域的应用,并促进了相关技术的进步和社区的讨论。
以上内容由遇见数据集搜集并总结生成



