3dlg-hcvc/ReVSI
收藏Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/3dlg-hcvc/ReVSI
下载链接
链接失效反馈官方服务:
资源简介:
ReVSI数据集是一个用于评估视觉语言模型(VLM)在三维推理中的视觉空间智能(VSI)的基准数据集。该数据集包含基于不同视频帧预算(16、32、64帧和全帧)的多个子集。每个数据条目包含以下字段:id(唯一标识符)、dataset(来源数据集)、scene_id(场景标识符)、question_type(问题类型)、question(自然语言问题)、options(答案选项列表)、ground_truth(正确答案)、num_frames(帧预算)和queried_object_ids(问题中引用的对象ID列表)。数据集构建自多个3D场景数据集,并支持使用LMMs-Eval、VLMEvalKit、ModelScope SWIFT和TorchMetrics Extension等框架进行评估。README还提供了元数据文件的详细信息及相关工作的引用。
The ReVSI dataset is a benchmark for evaluating Visual Spatial Intelligence (VSI) in Vision Language Models (VLMs) for 3D reasoning. It includes multiple subsets based on different video frame budgets (16, 32, 64, and all frames). Each entry in the dataset contains fields such as id (unique identifier), dataset (source dataset), scene_id (scene identifier), question_type (question category), question (natural language question), options (list of answer choices), ground_truth (correct answer), num_frames (frame budget), and queried_object_ids (list of object instance IDs referenced in the question). The dataset is constructed from various 3D scene datasets and supports evaluation using frameworks like LMMs-Eval, VLMEvalKit, ModelScope SWIFT, and TorchMetrics Extension. The README also provides details on metadata files and citations for related works.
提供机构:
3dlg-hcvc
搜集汇总
数据集介绍

构建方式
ReVSI数据集由西蒙菲莎大学等机构的研究人员构建,旨在精准评估视觉语言模型在三维空间中的推理能力。该数据集整合了ScanNet v2、ScanNetPP v2、MultiScan、ARKitScenes及3RScan等多个广泛使用的三维场景数据集,并从中提取视频序列进行标准化处理,包括统一的分辨率与帧率。在此基础上,研究团队通过层次化均匀采样策略,为每个场景生成了16帧、32帧、64帧以及全帧四种不同帧预算的子集,形成嵌套结构以支持对模型在有限帧条件下的空间理解能力进行精细化测评。
使用方法
ReVSI数据集可通过HuggingFace的datasets库便捷加载,支持选取不同帧预算的子集进行评测。研究者能够借助LMMs-Eval、VLMEvalKit等主流评估框架进行模型推理与性能计算,亦可通过TorchMetrics扩展模块对已有预测结果进行独立评估。同时,数据集兼容ModelScope SWIFT等推理工具,为不同技术栈的用户提供了灵活的使用选择。官方提供了详尽的命令行示例与Python接口,确保用户能够高效复现论文中的评测流程并开展自定义实验。
背景与挑战
背景概述
ReVSI(Rebuilding Visual Spatial Intelligence Evaluation)数据集由西蒙菲莎大学、香港科技大学、滑铁卢大学及艾伯塔机器智能研究所于2026年联合构建,核心研究问题聚焦于精准评估视觉语言模型(VLM)在三维空间中的推理能力。随着多模态大语言模型在视觉问答任务中取得突破,现有基准如VSI-Bench在衡量模型对空间布局、物体方位与相对关系的理解上存在诸多局限。ReVSI应运而生,通过对ScanNet v2、ScanNet++、ARKitScenes等多源室内场景数据集进行标准化视频抽取与多帧率采样,构建了包含16至全部帧数的四层次嵌套视频子集,覆盖6808个高质量测试样本,为VLM空间智能评估提供了更严谨的标杆。
当前挑战
ReVSI旨在解决的核心领域挑战是现有VLM空间推理评测中普遍存在的歧义性与细粒度不足,例如模型对物体相对距离、朝向及遮挡关系的判断常因帧率稀疏或视角偏好而产生偏差。其构建过程中的挑战主要体现在:跨不同采集设备与场景尺度(如ARKitScenes的移动设备视角与3RScan的固定视角)的数据标准化处理,需统一分辨率、帧率与方位旋转;多帧率子集的分层均匀采样需严格保障时间戳一致性,避免因帧索引错位导致模型利用时序编码产生虚假相关;此外,物体可见性标注在动态帧预算下需精确追踪,以评估模型在信息缺失时的鲁棒推理能力。
常用场景
经典使用场景
在三维视觉与多模态推理的交汇领域,ReVSI数据集为评估视觉语言模型(VLM)的空间智能提供了高保真的测试基准。其经典使用场景集中于基于多视角视频输入的3D推理任务,模型需从若干帧室内场景视频中理解物体间的空间关系、方位布局与属性关联。数据集通过16帧、32帧、64帧及全帧等多种采样配置,模拟了从稀疏观察到密集感知的不同观测条件,从而考察模型在有限视觉信息下的空间理解鲁棒性。每项样本均包含自然语言问题、候选选项及确切的3D空间标注答案,支持开放词汇的物体识别与方位判断,成为衡量VLM多维空间推理能力的核心试验场。
解决学术问题
ReVSI精准回应了当前视觉语言模型研究中空间感知能力评估不充分这一关键学术瓶颈。以往基准多依赖静态图像或简单场景,难以揭示模型在复杂三维环境中的方位判断、遮挡推理与跨帧理解的真实水平。该数据集通过融合ScanNet、ARKitScenes等多个高保真室内场景数据集,构建了包含精细3D边界框、场景区域多边形及物体可见性标注的元数据体系,使研究者能够系统量化模型在不同视频帧预算下的空间推理性能。其引入的层次化均匀采样策略,确保了评估的一致性与公平性,为深入剖析VLM在空间记忆、视点变换与多物体追踪等高级认知维度上的优劣提供了科学工具。
实际应用
ReVSI数据集的实用价值显著体现在智能机器人与增强现实等对空间理解有刚性需求的领域。在机器人导航中,模型需依据少量实时视频帧准确回答如“门位于桌子的哪个方向”或“椅子上是否有物品”等问题,ReVSI为此类边缘场景提供了标准的评测框架。在AR辅助系统中,设备需理解用户所在环境的物体布局以提供精准指导,该数据集的可变帧率设计适配了不同计算资源下的部署要求。此外,其支持的多源数据与开放词汇标注,使得跨场景泛化能力评估成为可能,直接服务于智能家居、虚拟展厅与自主巡检等真实应用场景的性能优化。
数据集最近研究
最新研究方向
ReVSI数据集聚焦于视觉-语言模型(VLM)在三维空间推理能力上的评测重建,通过多源室内场景视频(如ScanNet、ARKitScenes等)与层级化帧采样策略(16/32/64帧至全帧),系统性地评估模型在空间智能任务中的表现。随着大语言模型与视觉理解的深度融合,对VLM从静态图像理解向动态三维环境认知的迁移要求日益迫切,ReVSI通过标注物体可见性、三维包围框等元数据,揭示了现有模型在稀疏帧时序推理中的脆弱性。该基准提出的分层采样嵌套结构保证了时间戳一致性,为研究时空注意力机制与视频帧率对推理准确率的影响提供了标准化测试平台,其发布直接推动了三维场景理解从物体识别向空间关系推理的跃迁,并在ICML 2026上确立了VLM空间智能评估的新范式。
以上内容由遇见数据集搜集并总结生成



