five

MMPR-Tiny

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/OpenGVLab/MMPR-Tiny
下载链接
链接失效反馈
官方服务:
资源简介:
MMPR-Tiny是一个用于视觉问答任务的数据集,包含图像、问题、选择的答案和拒绝的答案等特征。它是InternVL3.5模型在在线强化学习阶段的训练数据,能够显著提高模型在不同规模下的推理能力。

MMPR-Tiny is a dataset for visual question answering (VQA) tasks, which includes features such as images, questions, selected answers, and rejected answers. It serves as the training data for the InternVL3.5 model during its online reinforcement learning stage, and can significantly enhance the model's reasoning capabilities across different scales.
提供机构:
OpenGVLab
创建时间:
2025-08-28
原始信息汇总

MMPR-Tiny数据集概述

数据集基本信息

  • 许可证:MIT
  • 任务类别:视觉问答
  • 语言:英语
  • 数据集名称:MMPR-Tiny
  • 数据规模:100万到1000万样本之间

数据特征

  • 图像:字符串类型
  • 问题:字符串类型
  • 选择答案:字符串类型
  • 拒绝答案:字符串类型

数据集描述

该数据集基于MMPR-v1.2数据集构建,通过计算每个查询的准确率并筛选模型准确率在0.2到0.8之间的样本用于在线强化学习。为进一步增强多样性,还扩展了最新的多模态数据集。

应用场景

该训练数据用于InternVL3.5模型的在线强化学习阶段,显著提升了InternVL3.5所有规模模型的整体性能。具体应用于:

  • InternVL3.5-MPO模型:基于InternVL3.5-Instruct初始化,使用MPO方法在MMPR-v1.2上微调
  • InternVL3.5-CascadeRL模型:基于InternVL3.5-MPO初始化,使用GSPO方法在MMPR-Tiny上进一步微调

相关资源

  • 训练代码:https://github.com/Weiyun1025/verl-internvl
  • 技术文档:https://internvl.readthedocs.io/en/latest/internvl3.0/preference_optimization.html
  • 相关论文:https://huggingface.co/papers/2508.18265

引用信息

BibTeX @article{wang2024mpo, title={Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization}, author={Wang, Weiyun and Chen, Zhe and Wang, Wenhai and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Zhu, Jinguo and Zhu, Xizhou and Lu, Lewei and Qiao, Yu and Dai, Jifeng}, journal={arXiv preprint arXiv:2411.10442}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉问答领域,MMPR-Tiny数据集的构建基于MMPR-v1.2版本,通过计算每个查询的模型准确率并筛选出准确率介于0.2至0.8之间的样本,专门用于在线强化学习阶段。为进一步提升数据多样性,研究团队还整合了近期发布的多模态数据集,确保数据覆盖范围的广泛性与代表性。
特点
该数据集具备丰富的多模态特性,包含图像、问题、优选回答及被拒绝回答四个核心字段,规模介于一百万到一千万条样本之间,适用于英语环境下的视觉问答任务。其突出特点在于经过精准筛选的样本质量,能够有效支持模型在复杂推理任务中的性能优化,显著提升多模态大语言模型的整体表现。
使用方法
研究人员可将该数据集应用于多模态大语言模型的在线强化学习训练,具体操作包括加载图像与文本数据,结合混合偏好优化算法进行模型微调。数据集已预先划分为训练集,用户可直接通过HuggingFace平台获取并集成至现有训练流程,以增强模型在视觉问答任务中的推理能力和泛化性能。
背景与挑战
背景概述
多模态大语言模型在视觉问答领域的发展推动了高质量训练数据集的需求。MMPR-Tiny数据集由OpenGVLab研究团队于2024年基于MMPR-v1.2构建,专门用于InternVL3.5模型的在线强化学习阶段。该数据集通过筛选模型准确率在0.2至0.8区间内的查询样本,并融合了最新的多模态数据集以增强多样性,显著提升了模型在不同规模下的推理能力,对推动多模态人工智能技术的进步具有重要影响。
当前挑战
视觉问答领域面临模型对复杂图像内容理解不准确和答案生成一致性不足的挑战。MMPR-Tiny在构建过程中需精确筛选中等难度样本以避免数据偏差,同时整合异构多模态数据时需保持语义一致性和标注质量。这些挑战要求数据集在样本选择和数据融合方面实现高度精确与平衡,以确保模型训练的有效性和泛化能力的提升。
常用场景
经典使用场景
在视觉问答领域,MMPR-Tiny数据集主要用于强化学习阶段的模型优化,特别适用于在线策略训练。该数据集通过筛选模型准确率在0.2至0.8之间的样本,构建了一个高质量的偏好对齐集合,为多模态大语言模型的推理能力提升提供了关键训练素材。其典型应用场景包括视觉语言模型的指令微调和偏好优化,尤其在需要平衡多样性与准确性的复杂视觉推理任务中表现突出。
实际应用
在实际应用层面,MMPR-Tiny数据集被广泛应用于智能客服系统的视觉问答模块、自动驾驶场景的环境理解系统以及医疗影像的辅助诊断工具。其高质量的偏好标注数据能够显著提升多模态模型在真实场景中的决策准确性,特别是在需要结合视觉信息和自然语言理解的跨模态任务中,该数据集为模型提供了可靠的训练基础。
衍生相关工作
基于MMPR-Tiny数据集,研究者开发了InternVL3.5-MPO和InternVL3.5-CascadeRL等突破性模型架构。这些工作创新性地采用了混合偏好优化(MPO)和广义策略优化(GSPO)方法,推动了多模态强化学习领域的发展。相关研究不仅验证了数据集的有效性,还衍生出新的训练范式和技术路线,为后续多模态大模型的研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作