Orsta训练数据集
收藏arXiv2025-05-24 更新2025-05-27 收录
下载链接:
https://github.com/MiniMax-AI
下载链接
链接失效反馈官方服务:
资源简介:
Orsta训练数据集是MiniMax团队构建的,用于训练Orsta模型系列,包括视觉推理和视觉感知任务。数据集涵盖了数学、科学、图表、谜题等视觉推理任务,以及目标检测、定位、OCR、计数等视觉感知任务。Orsta模型系列在MEGA-Bench Core基准测试中取得了显著的性能提升,证明了V-Triune系统的有效性和可扩展性。
The Orsta Training Dataset was constructed by the MiniMax team for training the Orsta model family, covering visual reasoning and visual perception tasks. Specifically, the visual reasoning tasks include mathematics, science, diagrams, puzzles, and other similar tasks, while the visual perception tasks involve object detection, localization, OCR, counting, and other relevant tasks. The Orsta model family achieved significant performance improvements in the MEGA-Bench Core benchmark, demonstrating the effectiveness and scalability of the V-Triune system.
提供机构:
MiniMax
创建时间:
2025-05-24
搜集汇总
数据集介绍

构建方式
Orsta训练数据集的构建采用了多阶段筛选与优化的策略,旨在统一视觉推理与感知任务的训练流程。首先通过规则过滤剔除低质量样本,包括去除多选题、符号冗余答案及异常边界框标注;随后基于Qwen2.5-VL基座模型的预测试算进行难度分级,保留中等挑战样本以平衡数据分布。核心创新在于样本级奖励配置设计,每个样本可自主定义奖励类型、权重及验证器,通过HuggingFace数据集格式实现异构任务的动态路由。该架构支持异步验证器服务器部署,数学类任务采用MathVerifyVerifier进行精确匹配,检测任务则集成动态IoU阈值机制,实现从宽松到严格的空间对齐渐进优化。
特点
Orsta数据集以任务多样性与模态协同为核心特征,覆盖数学解题、图表解析、目标检测等8类视觉-语言任务,包含4.77万高质量样本。其独特优势体现在三方面:一是动态IoU奖励机制突破传统固定阈值限制,通过0.85→0.95→0.99的阶段性阈值调整解决感知任务冷启动问题;二是源级指标监控系统实时追踪各数据源的反射率、响应长度等20+维度指标,为多任务稳定性提供诊断依据;三是样本级格式规范支持<think>推理链与<answer>结构化输出的协同生成,在COCO检测任务中实现63.36 mAP的显著提升。数据分布上,感知与推理任务样本比例为1:1.3,确保模型均衡发展跨模态能力。
使用方法
使用该数据集需配置V-Triune三组件系统:样本加载器需遵循HuggingFace标准接口读取含reward_model元数据的Parquet文件;训练时采用GRPO算法并冻结ViT参数,以7B/32B模型为例,学习率分别设为1e-6与5e-7,搭配动态IoU奖励的验证器服务器需独立部署。评估阶段推荐MEGA-Bench Core作为综合基准,检测任务需特别关注IoU@50/75/95多阈值指标。对于下游迁移,可通过调整accuracy_ratio与format_ratio权重实现任务偏好定制,OCR任务建议启用math_verify二次校验。系统提供源级日志分析工具,支持反射词频统计与响应长度分布可视化,便于诊断模型行为模式。
背景与挑战
背景概述
Orsta训练数据集由MiniMax团队于2025年提出,旨在通过视觉三重统一强化学习系统(V-Triune)解决视觉语言模型(VLMs)在推理与感知任务中的联合优化难题。该数据集围绕数学、科学、图表、谜题四类视觉推理任务,以及定位、检测、计数、OCR四类视觉感知任务构建,涵盖47.7K高质量样本。其核心创新在于动态IoU奖励机制和三级模块化设计(样本级数据格式化、验证级奖励计算、源级指标监控),推动了VLMs在MEGA-Bench等基准上实现最高14.1%的性能提升。
当前挑战
该数据集面临双重挑战:1) 领域问题层面,需同时克服视觉推理任务中答案解析的精确性要求(如数学符号验证)与感知任务中空间对齐的复杂性(如动态IoU阈值设计);2) 构建过程中,多模态数据异构性导致奖励函数难以统一(如检测任务需COCO格式而OCR依赖文本匹配),且ViT与LLM联合训练引发的梯度爆炸问题需通过冻结ViT参数解决。此外,冷启动问题迫使采用渐进式奖励策略以平衡早期学习信号与最终精度目标。
常用场景
经典使用场景
Orsta训练数据集在视觉语言模型(VLMs)的强化学习(RL)训练中展现出卓越的多任务适应性,尤其在联合优化视觉推理(如数学、科学问答)与感知任务(如目标检测、OCR)的场景中表现突出。其动态IoU奖励机制通过渐进式阈值调整,有效解决了空间定位任务中早期训练信号不足的问题,成为多模态RL研究的基准工具。
解决学术问题
该数据集通过统一的任务格式化与模块化奖励设计,攻克了传统RL在视觉感知任务中奖励稀疏、训练不稳定的难题。其创新性地将数学验证(math_verify)与空间度量(IoU/mAP)融合,为VLMs提供了跨模态的精确反馈信号,显著提升了模型在MEGA-Bench等综合基准上的泛化能力(最高+14.1%增益),填补了感知与推理任务协同优化的研究空白。
衍生相关工作
该数据集催生了VL-Rethinker(自反思机制)、MM-Eureka(规则强化)等系列工作。其异步奖励服务器架构被DeepSeek-R1采纳为标准化设计,而动态IoU奖励启发了Perception-R1在自动驾驶中的多尺度目标检测应用,形成「视觉RL三要素」(数据格式化-奖励计算-源监控)的方法论范式。
以上内容由遇见数据集搜集并总结生成



