UniDoc-RL
收藏arXiv2026-04-16 更新2026-04-19 收录
下载链接:
https://huggingface.co/datasets/DeepGlint-AI/UniDoc-RL
下载链接
链接失效反馈官方服务:
资源简介:
UniDoc-RL是由Glint Lab构建的高质量视觉文档检索增强生成(RAG)数据集,旨在支持多模态强化学习研究。该数据集包含丰富的推理轨迹数据,并带有细粒度的动作标注,为模型训练提供了详尽的监督信号。数据来源包括复杂视觉文档(如图表、扫描报告)的检索、选择及感知过程,通过层次化动作空间实现从粗粒度到细粒度的语义对齐。该数据集主要应用于提升大型视觉语言模型(LVLM)在复杂视觉推理任务中的性能,解决现有视觉RAG系统在检索准确性、视觉利用效率和优化奖励机制方面的核心挑战。
UniDoc-RL is a high-quality visual document retrieval-augmented generation (RAG) dataset developed by Glint Lab, designed to support multimodal reinforcement learning research. This dataset contains rich inference trajectory data paired with fine-grained action annotations, providing exhaustive supervisory signals for model training. The data originates from the retrieval, selection and perception processes of complex visual documents including charts and scanned reports, and achieves coarse-to-fine semantic alignment via a hierarchical action space. This dataset is primarily used to enhance the performance of large vision-language models (LVLMs) in complex visual reasoning tasks, addressing core challenges of existing visual RAG systems in retrieval accuracy, visual utilization efficiency and optimized reward mechanisms.
提供机构:
Glint Lab
创建时间:
2026-04-16
搜集汇总
数据集介绍

构建方式
在视觉检索增强生成领域,构建高质量的训练数据对于模型理解复杂文档至关重要。UniDoc-RL数据集的构建采用了多源整合与自动化轨迹合成的策略,其核心流程始于从SlideVQA、DoubleBench、VisR-Bench、DocBench及DUDE等多个公开基准中聚合样本,形成了一个覆盖多语言、多文档类型与多样化推理需求的初始语料库。随后,研究团队设计了一套严谨的多阶段过滤管道以确保数据质量,首先利用强大的教师模型Qwen3-VL-235B作为智能体,自动化合成包含“搜索-选择-感知”层次化动作的高质量推理轨迹。对于视觉感知动作的生成,特别引入了中间布局分析步骤,借助专业文档解析工具Mineru检测布局元素并生成候选边界框,再由教师模型评估并选择最优区域作为裁剪动作的标注。最终,通过质量过滤与难度感知过滤,构建了包含12,621个样本的监督微调数据集和5,537个样本的强化学习数据集,为模型学习层次化决策提供了坚实的监督基础。
使用方法
UniDoc-RL数据集旨在支持基于强化学习的视觉文档RAG模型的端到端训练与评估,其使用方法紧密围绕论文提出的统一训练范式展开。在训练阶段,该数据集主要用于两个关键环节:首先,利用其监督微调子集对大型视觉语言模型进行冷启动,使模型初步掌握遵循特定动作格式进行推理的基本能力;随后,强化学习子集与论文提出的分组相对策略优化算法及密集多奖励函数相结合,用于优化模型的层次化决策策略。具体而言,在GRPO框架下,模型基于当前策略与环境交互产生轨迹,数据集提供的标注轨迹与奖励计算函数(如基于NDCG的检索奖励、基于IoU的感知奖励)共同用于评估动作优劣并更新策略参数。在评估阶段,研究者可在ViDoSeek、SlideVQA和MMLongBench等基准上测试训练好的模型,通过对比最终答案的准确性来衡量UniDoc-RL框架的有效性。数据集已在HuggingFace平台开源,为复现研究及后续探索提供了便利。
背景与挑战
背景概述
在视觉检索增强生成领域,现有系统通常依赖通用检索信号,难以捕捉复杂推理所需的细粒度视觉语义。为应对这一挑战,Glint Lab的研究团队于2026年提出了UniDoc-RL数据集,旨在支持一种统一的强化学习框架,使大型视觉语言模型能够协同执行检索、重排序、主动视觉感知与推理。该数据集通过构建高质量、带有细粒度动作标注的推理轨迹,为视觉文档RAG的端到端优化提供了关键训练资源,显著推动了多模态文档理解与交互式智能代理的发展。
当前挑战
UniDoc-RL数据集致力于解决视觉RAG系统中三个核心挑战:一是准确检索,即如何避免因检索不相关视觉内容而导致的模型幻觉与答案错误;二是有效视觉利用,即如何在图像语义密集且包含冗余背景噪声的情况下,过滤噪声并聚焦关键区域;三是合理优化奖励,即如何设计密集奖励机制以解决检索、选择、裁剪与推理等多阶段信用分配问题。在构建过程中,挑战主要体现在自动化合成高质量、多步骤推理轨迹的复杂性,以及确保动作标注(如边界框坐标)的精确性与语义一致性,这需要结合强大的教师模型与专业的文档解析工具来实现。
常用场景
经典使用场景
在视觉文档理解领域,UniDoc-RL数据集被广泛用于训练和评估基于强化学习的视觉检索增强生成系统。该数据集通过精心构建的层次化动作轨迹,模拟了从粗粒度检索到细粒度视觉感知的完整推理过程。其经典使用场景涉及多模态文档问答任务,例如在SlideVQA、ViDoSeek等基准测试中,模型需要从包含图表、表格和文本的复杂视觉文档中检索关键证据,并通过主动裁剪和缩放操作聚焦信息密集区域,最终生成准确答案。
解决学术问题
UniDoc-RL数据集有效解决了视觉检索增强生成中的若干核心学术问题。它针对传统方法在细粒度视觉语义捕捉上的不足,提供了层次化动作空间和密集奖励机制,从而优化了检索准确性、视觉利用效率和端到端训练稳定性。该数据集通过标注高质量推理轨迹,缓解了稀疏奖励带来的信用分配难题,使模型能够学习精准的文档选择与区域定位策略,显著提升了复杂视觉推理任务的表现,为多模态强化学习研究提供了关键数据支撑。
实际应用
在实际应用层面,UniDoc-RL数据集支撑的系统可广泛应用于教育、医疗和商业分析等领域。例如,在学术研究中,它能协助研究人员从大量科学文献的图表中快速提取关键数据;在医疗诊断中,可帮助分析医学影像报告中的特定区域以辅助决策;在企业环境中,则能用于解析复杂的财务图表或业务演示文稿,自动生成摘要或回答特定查询。这些应用显著提升了处理视觉密集型文档的自动化水平与准确性。
数据集最近研究
最新研究方向
在视觉检索增强生成领域,UniDoc-RL数据集代表了当前最前沿的研究方向,其核心在于通过分层动作空间与密集多奖励机制,推动大视觉语言模型在复杂文档理解任务中的主动感知与推理能力。该框架将视觉信息获取建模为从粗粒度检索到细粒度区域裁剪的序列决策过程,有效解决了传统视觉RAG系统中存在的语义鸿沟与噪声干扰问题。其引入的精确选择与主动视觉感知动作,使模型能够模仿人类注意力机制,动态聚焦于信息密集区域,显著提升了多模态推理的准确性与鲁棒性。这一研究方向紧密关联于当前智能体强化学习与具身AI的热点进展,为处理图表、扫描报告等高密度视觉文档提供了可扩展的解决方案,对推动自动化文档分析、教育辅助及跨模态知识检索等应用具有深远意义。
相关研究论文
- 1UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense RewardsGlint Lab · 2026年
以上内容由遇见数据集搜集并总结生成



