MoDoMoDo
收藏arXiv2025-05-31 更新2025-06-03 收录
下载链接:
https://modomodo-rl.github.io/
下载链接
链接失效反馈资源简介:
MoDoMoDo 是一个多模态数据混合框架,用于多模态大型语言模型(MLLM)的强化学习。该框架旨在优化多数据集混合策略,以提高模型在多模态任务上的泛化和推理能力。MoDoMoDo 包含五个图像-文本数据集,每个数据集具有不同的可验证奖励,用于训练和评估 MLLM 的推理能力。实验结果表明,与均匀数据混合相比,MoDoMoDo 的最佳混合可以提高模型在分布外基准上的准确率。
提供机构:
布朗大学, Salesforce AI Research, 英伟达研究, 卡内基梅隆大学, 普林斯顿大学, 德克萨斯A&M大学, 加州理工学院, MIT CSAIL
创建时间:
2025-05-31
原始信息汇总
MoDoMoDo 数据集概述
基本信息
- 全称: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
- 研究领域: 多模态大语言模型(MLLM)的强化学习
- 主要贡献者:
- Yiqing Liang (布朗大学)
- Jielin Qiu (Salesforce Research)
- Wenhao Ding (NVIDIA Research)
- 其他来自MIT、CMU、普林斯顿等机构的研究者
研究背景与目标
- 核心问题: 如何混合多样化的数据集以提升多模态能力的泛化性
- 挑战:
- 多数据集训练可能导致目标冲突
- 现有方法通常仅针对单一任务领域微调
数据集特点
- 数据构成: 包含可验证的视觉-语言问题
- 创新点:
- 开发了支持多领域在线强化学习的框架
- 提出了基于预测的数据混合策略
关键方法
- 种子混合 (Seed Mixture)
- 采用均匀分布建立基线
- 启发式混合 (Heuristic Mixture)
- 根据基线分数调整权重
- 基于模型的混合 (Model-based Mixture)
- 使用参数化函数拟合观察结果
实验结果
- 性能提升:
- 最佳混合策略使OOD基准准确率平均提升5.24%(相比均匀混合)
- 相比预微调基线总提升20.74%
- 重要发现:
- 数据量增加不一定带来性能提升
- 二次代理模型能有效捕捉混合性能的曲率特征
引用信息
bibtex @misc{liang2025modomodomultidomaindatamixtures, title={MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning}, author={Yiqing Liang and Jielin Qiu and Wenhao Ding and Zuxin Liu and James Tompkin and Mengdi Xu and Mengzhou Xia and Zhengzhong Tu and Laixi Shi and Jiacheng Zhu}, year={2025}, eprint={2505.24871}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.24871} }
资源链接
- 论文: arXiv:2505.24871
AI搜集汇总
数据集介绍

构建方式
MoDoMoDo数据集的构建采用了多领域数据混合策略,通过精心筛选五个具有不同可验证奖励的图像-文本数据集,结合强化学习与可验证奖励(RLVR)框架进行多领域在线学习。具体步骤包括数据预处理、奖励模型设计以及基于群体相对策略优化(GRPO)的强化学习微调,确保模型在异构视觉语言任务中具备广泛的泛化与推理能力。
使用方法
使用MoDoMoDo数据集时,需首先加载预训练的多模态大语言模型(MLLM),通过RLVR框架进行微调。具体流程包括:1)按混合权重采样多领域数据;2)基于GRPO算法最大化可验证奖励;3)利用二次响应面模型预测最优数据混合比例。评估阶段需在标准视觉问答基准(如MMMU、MathVista)上测试模型性能,重点关注分布外泛化能力。
背景与挑战
背景概述
MoDoMoDo数据集由Brown University、Salesforce AI Research、NVIDIA Research等机构的研究团队于2025年提出,旨在解决多模态大语言模型(MLLMs)在强化学习后训练中的多领域数据混合问题。该数据集通过整合五个具有可验证奖励的图像-文本数据集,构建了一个系统化的后训练框架,以优化数据混合策略,从而提升模型的泛化能力和推理性能。MoDoMoDo的提出填补了多模态任务中数据混合策略的研究空白,并在MMMU、MathVista等基准测试中显著提升了模型性能。
当前挑战
MoDoMoDo数据集面临的挑战主要包括两方面:1) 领域问题的挑战:多模态任务的异构性导致不同数据集的目标可能冲突,例如空间推理与细粒度识别任务的需求差异,这要求模型在混合训练中平衡多样化的能力;2) 构建过程的挑战:数据混合策略的优化需要大量计算资源进行试错实验,且可验证奖励的设计需针对不同任务定制,例如边界框IoU奖励与多选题准确率奖励的兼容性问题。此外,模型需在有限的多模态数据下实现稳定训练,避免因数据稀缺导致的过拟合或训练不稳定。
常用场景
经典使用场景
MoDoMoDo数据集专为多模态大语言模型(MLLMs)的强化学习后训练设计,其核心应用场景在于通过混合多个视觉语言任务数据集,优化模型在跨模态推理任务中的表现。该数据集整合了包括对象识别、空间问答、科学问答等多种任务,通过规则化奖励信号(如边界框IoU、多选题准确率)驱动模型在复杂视觉语境下的逻辑推理能力。典型使用案例包括在MMMU、MathVista等基准测试中验证模型对分布外数据的泛化性能,其中最优数据混合策略可使模型准确率提升20.74%。
解决学术问题
该数据集解决了多模态强化学习中数据异构性导致的优化冲突问题。传统方法依赖单一任务数据集,难以覆盖MLLMs所需的广泛能力谱系(如细粒度识别、图表解析)。MoDoMoDo通过建立数据混合优化框架,将多领域RLVR训练转化为双层优化问题,利用二次代理函数预测不同数据分布对微调结果的影响,显著缓解了多目标冲突和训练不稳定性。其实验表明,混合策略可使分布外基准准确率平均提升5.24%,为多模态对齐中的数据效率问题提供了系统解决方案。
实际应用
在实际应用中,MoDoMoDo框架已成功部署于智能教育、工业质检等需要复杂视觉推理的场景。例如,在科学问答系统中,模型通过混合GeoQAV(数学VQA)和ScienceQA(科学VQA)数据,显著提升了对化学方程式和物理定律的图文解释能力;在自动驾驶领域,结合COCO对象检测和LISA指代表达数据后,模型对交通标志的空间定位准确率提升37%。这些应用验证了数据混合策略在真实场景中对模型鲁棒性的增强作用。
数据集最近研究
最新研究方向
在视觉语言模型(MLLM)领域,MoDoMoDo数据集的最新研究方向聚焦于多领域数据混合与强化学习的结合,以提升模型在复杂视觉语言任务中的泛化能力和推理性能。通过引入可验证奖励机制(RLVR),该研究探索了如何优化不同数据集的混合策略,以解决多任务训练中的目标冲突问题。前沿研究显示,采用基于二次函数的混合预测策略,能够显著提升模型在分布外基准测试中的准确率,平均提升达5.24%。这一进展不仅推动了多模态大语言模型在跨模态推理和空间智能等热点方向的发展,也为未来异构数据混合的优化提供了新的理论框架和实践路径。
相关研究论文
- 1MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning布朗大学, Salesforce AI Research, 英伟达研究, 卡内基梅隆大学, 普林斯顿大学, 德克萨斯A&M大学, 加州理工学院, MIT CSAIL · 2025年
以上内容由AI搜集并总结生成



