five

MulSeT

收藏
Hugging Face2025-09-03 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/WanyueZhang/MulSeT
下载链接
链接失效反馈
官方服务:
资源简介:
MulSeT数据集旨在评估多视角空间理解能力,包含三个逐步增加难度的任务:遮挡恢复、距离比较和方位转换。这些任务都需要在图像之间整合信息,并形式化为四选一的多项选择题。数据集完全在合成环境中构建,共有超过38000个问题-答案对,跨越5000多个独特的3D场景。
创建时间:
2025-08-28
原始信息汇总

MulSeT (Multi-view Spatial Understanding Tasks) 数据集概述

数据集简介

MulSeT是一个专注于多视角空间理解任务的数据集,通过多选项选择题形式评估模型在多图像信息整合能力方面的表现。

核心任务

遮挡恢复 (Occlusion Restoration)

  • 任务要求:理解视图间的相对位置关系
  • 任务形式:给定场景的两个视图,第二个图像中某个对象被遮挡,模型必须利用两个视图的信息识别被遮挡对象
  • 评估能力:不同视图中的对象对应关系理解

距离比较 (Distance Comparison)

  • 任务要求:直观的空间理解能力
  • 任务形式:基于质心距离,找出距离给定参考对象(跨视图共享)最近的对象
  • 评估能力:空间关系推理

方位转移 (Azimuth Transfer)

  • 任务要求:抽象的空间想象和视点条件空间推理
  • 任务形式:假设以第一图像的自我中心视点面对参考对象,确定第二视图中第二个对象的相对方向
  • 评估能力:视点条件空间推理

数据集构建

构建环境

  • 在完全合成的模拟器环境中构建
  • 使用多个室内场景,每个场景从不同视角捕获两幅图像
  • 每对图像包含共享和独占对象,确保某些对象仅出现在其中一个视图中

构建流程

  1. 获取对象级场景元数据(包括世界坐标系中的3D位置)
  2. 识别跨视图的共享和独占对象
  3. 应用可见性过滤器(保留至少占据最小面积比例的对象)
  4. 生成特定任务:
    • 遮挡恢复:选择共享对象并在一个视图中用红色边框的黑色矩形遮挡
    • 距离比较:使用所有对象的3D坐标生成关于最近对象的问题-答案对
    • 方位转移:选择两个独占对象并计算相对方位,强制角度分离约束(≥15°)

数据集统计

  • 问题-答案对数量:超过38.2k
  • 独特3D场景数量:超过5,000个
  • 数据来源:AI2-THOR和replica_cad验证集的源图像
  • 数据划分:30k用于训练,8.2k用于评估

相关资源

  • 论文:https://arxiv.org/abs/2509.02359
  • 代码库:https://github.com/WanyueZhang-ai/spatial-understanding
  • 许可证:Apache-2.0

当前状态

本存储库目前提供数据集的演示版本作为预览,完整数据集即将发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,多视角空间理解任务对模型提出了更高层次的感知要求。MulSeT数据集通过完全合成的方式构建于可控仿真环境中,利用AI2-THOR和replica_cad验证集的场景资源,在每个三维场景中设置不同视角的双图像采集。通过自动化脚本处理物体级场景元数据,应用可见性过滤器筛选符合最小面积占比的物体,并基于三维坐标系统生成三种渐进式任务:遮挡恢复通过掩码共享物体测试跨视角对应能力,距离比较利用质心距离推导空间关系,方位传递则通过强制角度分离约束实现视角条件推理。
特点
多模态大语言模型在空间认知方面存在显著挑战,MulSeT为此提供了系统化评估基准。该数据集包含超过3.82万个多选题形式的问答对,涵盖5000余个独特三维场景,具有任务难度递进的特质:从基础的遮挡恢复到需要抽象空间想象的方位传递。所有任务均设计为四选项选择题,确保评估标准统一性。图像对中同时包含共享物体和专属物体,这种精心设计的视觉差异为模型跨视角推理提供了必要前提。
使用方法
对于空间认知能力的研究者而言,MulSeT可作为训练与评估的多功能平台。数据集按3万训练样本和8200评估样本划分,支持模型在遮挡恢复、距离比较、方位传递三大任务上的性能验证。使用者可通过加载图像对和关联元数据,输入多模态模型进行端到端测试。任务生成时预设的视角差异和物体分布模式,使得该数据集特别适合探究模型在三维空间推理、视角转换以及几何关系理解方面的能力边界。
背景与挑战
背景概述
多模态大语言模型在空间认知方面存在显著局限性,为此研究团队于2024年推出了MulSeT数据集。该数据集由Wanyue Zhang等人基于AI2-THOR和ReplicaCAD仿真环境构建,专注于多视角空间理解任务的系统性评估。通过合成方法生成超过38,200个问答对,覆盖5,000余个独特三维场景,其核心研究在于解决模型在跨视角空间关系推理中的认知缺陷,为计算机视觉与具身智能领域的空间认知研究提供了重要基准。
当前挑战
MulSeT数据集致力于解决多视角空间理解这一核心问题,其挑战主要体现在三维空间关系推理、视角转换与遮挡处理等复杂认知任务。构建过程中的技术挑战包括:通过仿真环境精确控制物体可见性与空间坐标,确保多视角间物体对应关系的准确性;设计自动化流程生成符合几何约束的问答对,并严格保持选项间的区分度;此外还需平衡合成数据的真实性与任务多样性,以保障评估的有效性。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,MulSeT数据集为多视图空间理解任务提供了系统化的评估框架。该数据集通过遮挡恢复、距离比较和方位转移三大渐进式任务,要求模型整合不同视角的空间信息进行多选问答,经典应用于评估多模态大语言模型在跨视图对象对应、空间关系推理和视角条件推理方面的核心能力。
解决学术问题
MulSeT数据集有效解决了多模态模型中空间认知能力系统性评估缺失的学术难题。通过合成环境下的可控数据构建,它提供了精确的3D空间标注,使得研究者能够定量分析模型在对象遮挡处理、距离感知和视角转换中的表现,为改进模型架构与训练策略提供了关键见解,推动了空间推理研究向可解释、可复现的方向发展。
衍生相关工作
基于MulSeT数据集,研究者开展了一系列经典工作,包括多模态融合架构的优化、空间注意力机制的改进以及跨视图一致性学习方法的探索。这些工作不仅深化了对模型空间认知瓶颈的理解,还催生了新型评估指标与训练范式,为后续多模态空间推理研究奠定了坚实基础,并促进了仿真到真实场景的迁移学习研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作