five

Orsta-Data-47k

收藏
Hugging Face2025-05-26 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/One-RL-to-See-Them-All/Orsta-Data-47k
下载链接
链接失效反馈
官方服务:
资源简介:
Orsta-Data-47k是一个专门为视觉语言模型(VLM)的强化学习后训练而设计的专业数据集,使用V-Triune统一强化学习系统。该数据集旨在支持模型在广泛的视觉推理和视觉感知任务上进行稳健的联合训练,赋予模型如Orsta高级多模态能力。数据集由18个公开可用数据集经过严格筛选组成,确保了高质量和适用于基于RL的微调。
创建时间:
2025-05-26
原始信息汇总

Orsta-Data-47k 数据集概述

数据集基本信息

  • 标签: vision-language, multimodal, reinforcement-learning, visual-reasoning, visual-perception, V-Triune, Orsta
  • 许可证: MIT
  • 任务类别: image-to-text
  • 语言: 英语 (en)
  • 规模: 10K<n<100K

数据集描述

  • 用途: 专为视觉语言模型(VLMs)的后训练设计,用于强化学习系统V-Triune的联合训练
  • 来源: 从18个公开数据集中精选聚合
  • 特点: 覆盖视觉推理和视觉感知任务的高质量数据

任务覆盖

  • 视觉推理任务:
    • 数学 (Math QA)
    • 谜题解决 (Visual Puzzles)
    • 科学问答 (Science QA)
    • 图表理解 (Chart QA)
  • 视觉感知任务:
    • 目标检测
    • 视觉定位
    • 目标计数
    • 光学字符识别 (OCR)

数据筛选流程

  1. 基于规则的筛选: 去除噪声样本、易"破解"的问题格式和问题答案格式
  2. 基于难度的筛选: 去除过易或过难的样本,确保学习信号有效

数据集构成

  • 总样本量: ~47.7K
    • 视觉感知样本: ~20.6K
    • 视觉推理样本: ~27.1K
  • 交互格式: 单图像、单轮对话交互
  • 存储格式: Parquet

数据来源

  • 数学: mm_math, geometry3k, mmk12
  • 谜题: PuzzleVQA, AlgoPuzzleVQA, VisualPuzzles
  • 科学: ScienceQA, SciVQA, ViRL39K
  • 图表: ChartQAPro, ChartX, Table-VQA-Bench, ViRL39K
  • 检测: V3Det, Object365
  • 定位: D^3
  • 计数: CLEVR
  • OCR: LLaVA-OV Data, EST-VQA

引用信息

bibtex @article{ma2025one, title={One RL to See Them All: Visual Triple Unified Reinforcement Learning}, author={Ma, Yan and Du, Linge and Shen, Xuyang and Chen, Shaoxiang and Li, Pengfei and Ren, Qibing and Ma, Lizhuang and Dai, Yuchao and Liu, Pengfei and Yan, Junjie}, journal={arXiv preprint arXiv:2505.18129}, year={2025} }

注意事项

  • 数据文件预计于2025年6月1日前公开发布
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型强化学习的背景下,Orsta-Data-47k数据集通过精心设计的双阶段筛选流程构建而成。该流程首先对来自18个公开数据源的原始样本进行基于规则的过滤,针对视觉推理与感知任务的不同特性,剔除存在噪声、格式不当或易被模型取巧的样本,并对感知任务的坐标系统进行标准化处理。随后实施难度筛选机制,移除过于简单或极端困难的样本,最终形成约47,700个高质量样本的集合,并通过战略性数据复制平衡了不同任务间的样本分布。
特点
作为面向多模态任务统一训练的数据集,Orsta-Data-47k的核心特点体现在其广泛的任务覆盖与精细的结构设计。数据集均衡囊括了数学问答、谜题求解、科学问答、图表理解四类视觉推理任务,以及目标检测、视觉定位、物体计数、光学字符识别四类视觉感知任务,共计八大类别。其数据结构采用图像序列与对话提示词相结合的格式,并创新性地集成了奖励模型评估字段,能够直接支持强化学习训练过程中的质量反馈与性能验证。
使用方法
该数据集专为与V-Triune强化学习框架协同使用而设计,用户可通过Hugging Face Hub直接下载Parquet格式的数据文件。数据集按任务来源划分为训练集与测试集目录,其中训练集用于模型参数优化,测试集则用于在线评估模型在不同任务上的实时表现。加载数据后可解析包含图像、多轮对话提示、能力标签及奖励评分在内的结构化字段,直接输入至视觉语言模型进行端到端的多任务联合训练与性能诊断。
背景与挑战
背景概述
Orsta-Data-47k数据集由MiniMax-AI团队于2025年发布,作为其V-Triune统一强化学习框架的核心训练资源。该数据集旨在解决多模态视觉语言模型在联合训练视觉推理与视觉感知任务时的数据异构性问题,通过整合18个公开数据集构建出涵盖数学问答、图表理解、目标检测等八大任务的47,700个样本。其创新性在于突破了传统单任务数据集的局限,为构建通用型视觉语言智能体提供了标准化数据基础。
当前挑战
该数据集需应对视觉推理与感知任务间的语义鸿沟挑战,例如数学问题求解与目标检测任务在输出空间和评估指标上的显著差异。构建过程中面临多源数据融合的复杂性,包括不同标注规范的统一、噪声样本的滤除,以及通过难度分级机制平衡样本的学习价值。此外,数据集的异构性对强化学习训练时的奖励函数设计提出了更高要求,需确保跨任务评估的一致性。
常用场景
经典使用场景
在视觉语言模型强化学习后训练领域,Orsta-Data-47k数据集通过整合18个公开数据集构建的多模态语料库,为模型提供了涵盖数学推理、图表解析、目标检测等八类任务的统一训练平台。该数据集采用严格的规则筛选与难度分级机制,确保样本兼具挑战性与可学习性,成为V-Triune框架下实现视觉推理与感知协同优化的核心训练资源。其单图对话式交互结构有效模拟了真实场景中视觉与语言的复杂关联,为多任务联合训练奠定了数据基础。
实际应用
在实际应用层面,基于该数据集训练的Orsta模型可部署于智能教育系统,实现数学几何题的可视化解析与科学实验图表的多轮问答。在工业质检场景中,模型能同步完成零件缺陷检测与检测报告生成,提升自动化巡检效率。金融领域可借助其图表理解能力自动分析股票趋势图,而智能办公系统则利用OCR与视觉定位功能实现文档结构化处理。这些应用体现了多任务模型在复杂现实环境中的综合决策优势。
衍生相关工作
该数据集的发布催生了V-Triune统一强化学习框架的深度优化,相关研究团队在此基础上开发了动态课程学习策略,通过任务难度渐进式训练提升模型收敛效率。后续工作进一步扩展了数据集的边界检测与实例分割任务规模,并衍生出基于多专家模型的奖励信号融合方法。这些研究不仅验证了数据集在多模态对齐领域的基准价值,更推动了视觉语言模型在具身智能、自动驾驶等前沿方向的适配性探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作