ActiveViewPose-200K; ActiveManip-Bench
收藏arXiv2026-03-13 更新2026-03-14 收录
下载链接:
https://lmzpai.github.io/SaPaVe
下载链接
链接失效反馈官方服务:
资源简介:
ActiveViewPose-200K是由北京通用人工智能研究院构建的大规模语义相机控制数据集,包含20万条高质量图像-语言-相机运动配对数据,具有精细的任务导向标注。该数据集通过多模态对齐技术构建,支持机器人学习任务相关的视角调整能力。ActiveManip-Bench是首个针对主动操作的仿真基准,涵盖12类复杂任务、100个家居对象和20种场景配置,解决了固定视角评估的局限性。两者共同服务于机器人主动感知与操作系统的研发,推动视觉-语言-动作模型的场景适应能力突破。
ActiveViewPose-200K is a large-scale semantic camera control dataset constructed by the Beijing Academy of General Intelligence. It contains 200,000 high-quality paired data of image, language and camera motion, with fine-grained task-oriented annotations. Built via multimodal alignment technologies, this dataset supports the learning of task-related viewpoint adjustment capabilities for robots. ActiveManip-Bench is the first simulation benchmark for active manipulation, covering 12 types of complex tasks, 100 household objects and 20 scene configurations, which addresses the limitations of fixed-viewpoint evaluation. Together, the two datasets serve the research and development of robotic active perception and operating systems, and promote breakthroughs in the scene adaptation capabilities of vision-language-action models.
提供机构:
北京大学·多媒体信息处理国家重点实验室; 北京航空航天大学·软件学院; 北京通用人工智能研究院
创建时间:
2026-03-13
搜集汇总
数据集介绍

构建方式
在机器人视觉-语言-动作模型领域,为克服固定视角数据集的局限性,ActiveViewPose-200K数据集通过半自动流程精心构建。该流程首先从Objaverse等资源中筛选出4000个高质量、语义标注的三维资产,并生成500个多样化室内场景。随后,利用启发式算法批量生成图像与最优相机运动配对,同时结合3000个详细任务模板,通过GPT-4o生成相关指令并经人工润色,最终形成了包含20万对图像-语言-相机运动数据的大规模高质量数据集,专门用于支持任务导向的语义相机运动学习。
特点
ActiveViewPose-200K数据集的核心特点在于其规模性与语义丰富性。作为首个面向语义主动感知的大规模数据集,它提供了20万对精细标注的图像-语言-相机运动样本,覆盖了从视觉居中、空间指向到常识推理等多种指令模态。数据集中蕴含高度详细的语义注释,能够有效引导模型将抽象语言指令与连续相机姿态空间进行关联,为学习细粒度的、语义驱动的相机控制提供了坚实基础,弥补了现有机器人数据集中固定近最优视角数据的不足。
使用方法
该数据集主要用于训练和评估模型的语义主动感知能力。在SaPaVe框架的两阶段训练策略中,第一阶段专门使用ActiveViewPose-200K对相机适配器和相机动作解码器进行监督训练,旨在最小化预测相机运动与真实值之间的均方误差,从而为模型注入强大的语义主动感知先验知识。此外,数据集的测试集被划分为包含显式位置指示与需要推理隐含相机运动的不同子集,可用于全面评估模型在多种指令理解场景下的性能,为比较通用VLM与专用空间VLM提供了标准化基准。
背景与挑战
背景概述
ActiveViewPose-200K与ActiveManip-Bench数据集由北京大学、北京航空航天大学及北京智源人工智能研究院的研究团队于2026年提出,旨在推动机器人视觉-语言-动作模型中的主动感知与操作研究。该数据集聚焦于解决复杂场景下机器人需主动调整视角以获取关键信息并执行精确操作的挑战,其核心研究问题在于如何实现语义驱动的主动感知与视角不变性执行的统一。通过提供大规模图像-语言-相机运动配对数据及丰富的仿真基准,该数据集为机器人学习语义相机控制和评估主动操作能力提供了重要支撑,显著提升了相关模型在动态视角下的鲁棒性与任务成功率。
当前挑战
该数据集致力于解决机器人主动操作领域的核心挑战,即在遮挡或目标不可见的场景中,机器人需基于语义指令主动调整视角以完成操作任务。构建过程中的主要挑战包括:首先,现有数据多采集于固定近最优视角,缺乏大规模、高质量的主动视角数据,需通过半自动流程合成包含详细语义注释的相机运动数据;其次,仿真基准的构建需覆盖多样任务、对象与场景,并支持动态视角评估,以填补现有固定视角基准的不足。
常用场景
经典使用场景
在机器人主动感知与操作领域,ActiveViewPose-200K与ActiveManip-Bench数据集为视觉-语言-动作模型的训练与评估提供了关键支撑。ActiveViewPose-200K专注于语义驱动的相机运动学习,通过20万条图像-语言-相机运动配对数据,使模型能够依据自然语言指令主动调整视角以揭示任务关键信息。ActiveManip-Bench则构建了首个模拟环境下的主动操作基准,涵盖12项任务、100个物体与20种场景,系统评估模型在动态视角下的操作鲁棒性。这些数据集共同推动了机器人从被动观察到主动探索的范式转变。
解决学术问题
该数据集有效解决了机器人学中语义主动感知与动态视角操作耦合的难题。传统方法常将主动感知离散化为视觉问答任务,难以实现精细的连续相机控制;而端到端视觉-语言-动作模型通常依赖固定视角数据,对视角变化敏感。ActiveViewPose-200K通过大规模语义标注的相机运动数据,使模型学会依据语言指令主动调整视角,克服了视角遮挡与视觉歧义问题。ActiveManip-Bench则填补了主动操作评估基准的空白,为量化模型在复杂场景下的综合能力提供了标准化平台,显著提升了研究的可复现性与可比性。
衍生相关工作
基于该数据集,研究者们衍生出一系列经典工作,进一步拓展了主动操作的研究边界。例如,SaPaVe框架利用数据集的层级训练策略,实现了语义主动感知与主动视角执行的端到端联合优化;后续研究借鉴其解耦动作空间设计,开发出更高效的相机适配器与通用空间知识注入模块。此外,数据集的构建方法论启发了更多大规模合成数据生成流程,如结合程序化场景生成与LLM指令增强的技术,被广泛应用于机器人仿真数据集的构建中,持续推动着视觉-语言-动作模型在复杂交互任务中的进步。
以上内容由遇见数据集搜集并总结生成



