CrossViewSet

Name: CrossViewSet
Creator: 浙江大学
Published: 2026-05-19 00:31:31
License: 暂无描述

arXiv2026-05-19 更新2026-05-20 收录

下载链接：

https://github.com/Thinkirin/Crossview-Suite

下载链接

链接失效反馈

官方服务：

资源简介：

CrossViewSet是由浙江大学团队构建的大规模跨视角空间推理指令数据集，旨在为多模态大语言模型提供显式的对象级跨视图对齐监督。该数据集包含164.3万条样本，覆盖17种细粒度任务类型，数据来源于Ego-Exo4D、EgoHumans、MMPTrack和MessyTable四个公开多视角资源，并通过多智能体数据引擎自动生成掩码标注和问答对。数据集通过感知补全、跨视图关联和规则化模板生成流程构建，专注于解决多视角场景下的对象对应、可见性推理、几何关系与物理推理等核心问题，推动MLLM从单视角感知向真实世界空间智能演进。

提供机构：

浙江大学

创建时间：

2026-05-19

原始信息汇总

CrossView Suite 数据集概述

CrossView Suite 是一个旨在提升多模态大语言模型（MLLMs）跨视图空间智能的综合数据集、基准测试和模型框架。它围绕物体对应关系、可见性、几何和物理推理来组织跨视图理解问题。

核心组件

组件	描述	规模与状态
CrossViewSet	大规模跨视图指令数据，包含掩码标注和物体级监督信号。	包含 1.6M 训练样本。完整套件版本后续可添加。
CrossViewBench	场景分离的基准测试，涵盖对应关系、可见性、几何和物理推理。	包含 17K 问题，覆盖 17 种任务类型。基准测试资源后续可添加。
CrossViewer	以物体为中心的多视图推理框架，基于 Qwen3-VL 架构。	模型代码、配置及训练/评估脚本现已在 `CrossViewer/` 目录下可用。

CrossViewer 模型架构

CrossViewer 遵循从感知到对齐再到推理的渐进式流水线：

ART：将掩码标注的物体转换为紧凑的物体标记。
OCVA：执行显式的跨视图标记检索、重排序和对齐。
对齐后的物体表示被注入 Qwen3-VL 模型进行答案生成。

性能结果（论文表3节选）

模型	总体	对应关系	可见性/遮挡	几何	物理
人类基线	86.1	87.5	80.2	86.5	93.6
Gemini-3.1-Pro	51.5	60.0	39.0	50.5	56.0
GPT-5.2	49.5	41.5	45.1	54.5	58.3
Qwen3.5-397B	51.7	50.1	41.0	54.1	72.6
Qwen3-VL-8B	42.7	40.1	30.7	45.3	71.1
CrossViewer (ours)	62.7	83.2	61.1	49.1	74.4

仓库结构与快速开始

仓库主目录 CrossViewer/ 包含以下关键子目录和脚本：

configs/：训练配置和消融设置。
crossviewer/：模型定义和核心模块。
data/：JSONL 数据集加载器以及掩码/物体工具。
scripts/：训练和评估入口点。

关键入口文件：

训练：CrossViewer/scripts/train.py
评估：CrossViewer/scripts/eval_mc.py
默认配置：CrossViewer/configs/default.yaml

快速安装与使用： bash

安装

cd CrossViewer pip install -r requirements.txt

训练

torchrun --nproc_per_node=4 --master_port=12355 scripts/train.py --config configs/default.yaml

评估

python scripts/eval_mc.py --config configs/default.yaml --ckpt /path/to/checkpoint

配置说明

关键路径配置位于 CrossViewer/configs/*.yaml 中，主要字段包括：

字段	是否必需	描述
`model.vision_encoder_path`	是	本地 Qwen3-VL 检查点路径或模型标识符
`data.data_root`	是	用于解析样本资源的数据集根目录
`data.jsonl_train`	训练时必需	训练标注 JSONL 文件
`data.jsonl_val`	验证/评估时必需	验证标注 JSONL 文件
`training.save_dir`	推荐	检查点输出目录
`training.log_dir`	推荐	日志目录

搜集汇总

数据集介绍

构建方式

在跨视角空间智能这一前沿领域，现有公开多视图资源虽提供了同步视角与三维标注，却缺乏大规模、带掩码标注的指令微调数据，难以支撑多模态大模型习得显式的跨视角物体级推理能力。为此，研究者设计了一套多智能体数据引擎，从Ego-Exo4D、EgoHumans、MMPTrack和MessyTable四个公开多视图数据源中，系统性提取原始观测、物体关联与几何线索。该引擎借助SAM 2等工具补全缺失的实例掩码，利用三维坐标与相机外参导出结构化跨视角信号，并通过基于规则的QA模板生成逾八百万候选样本。经自动化过滤、改写与一致性校验后，最终保留约163.6万条训练样本与1.7万条评测问题，形成覆盖对应、可见性与遮挡、几何推理及物理推理四大类别、共17种细粒度任务类型的CrossViewSet。

特点

CrossViewSet的核心特色在于其大规模、细粒度与场景隔离的特性。作为目前规模最大的跨视角指令微调数据集，它涵盖163.6万样本与17种任务类型，跨越对应识别、可见性判断、几何关系推理与物理接触判别等关键维度。所有样本均配备精准的实例掩码与统一的跨视角身份标识，使得模型能够基于物体级而非图像级线索进行推理。数据集创新性地融合了来自人体活动、多人交互、监控与桌面杂乱场景的混合视角，涵盖第一人称与第三人称、静态与动态环境、以人为中心与以物体为中心的多重场景，极大增强了数据的多样性与泛化能力。尤为重要的是，训练集与评测集采用场景隔离设计，从根本上避免了数据泄露，为评估模型泛化性能提供了公正基准。

使用方法

CrossViewSet专为多模态大语言模型的跨视角空间推理训练而设计，其使用方法遵循感知-对齐-推理的渐进范式。在感知阶段，自适应区域分词器将每个掩码标注的物体转换为紧凑的标记序列，保留细粒度局部特征。随后，在跨视角检索模块中，模型通过对比学习嵌入空间内的相似度匹配，初步建立粗粒度的物体对应关系。进入对齐阶段后，物体中心跨视角对齐器利用交叉注意力机制，实现对匹配物体对的显式特征融合，并借助监督对比损失与难例三元组损失强化嵌入空间的结构稳定性。最终，在推理阶段，对齐后的区域标记被注入语言模型的<REGION>占位符中，与全局场景标记和目标物体摘要标记共同编码，引导模型基于显式的跨视角物体证据生成答案。该框架支持多种匹配策略，且训练仅需微调新增的投影层、对齐模块与语言适配层，在4块A100 GPU上即可高效完成。

背景与挑战

背景概述

多模态大语言模型在单视图视觉理解领域已取得显著进展，然而真实世界环境本质上是动态且多视角的，智能体需要从不断变化的视点持续感知场景，而非依赖单一静态图像。由浙江大学Wei Wang、Yuqian Yuan等研究人员于2026年提出的CrossViewSet数据集，正是为了填补跨视图空间推理这一关键研究空白而诞生。该研究团队构建了一个包含164.3万样本、覆盖17种细粒度任务类型的大规模掩码引导指令数据集，旨在推动多模态大语言模型从单视图感知迈向真正的多视图空间智能。CrossViewSet的提出不仅系统性地解决了跨视图对象对应、可见性与遮挡、几何关系及物理推理等核心问题，更通过其场景分离的评估基准展现出对相关领域的深远影响力，为具身智能、机器人学和多代理协作研究提供了坚实的数据基础。

当前挑战

CrossViewSet所面临的挑战具有双重维度。首先，在领域问题层面，现存的多视图资源如Ego-Exo4D、EgoHumans等虽提供同步视图或三维标注，却缺乏大规模掩码引导的指令调优数据，无法同时提供高质量实例掩码、统一区域参考及对象级跨视图问答监督，导致多模态大语言模型难以建立稳定的跨视图对象对应关系。其次，在数据集构建过程中，研究团队需从四个公开多视图源中系统整合异构标注，通过多代理数据引擎自动生成掩码、推导几何监督并构建统一问答模板，在保证8百万候选样本中筛选出164.3万高质量训练样本，同时维持评估集与训练集的场景分离，确保评估的公正性与系统性，这要求在数据规模、标注质量与任务多样性之间达成精妙平衡。

常用场景

经典使用场景

CrossViewSet作为首个大规模、掩码引导的多视角指令数据集，被广泛用于训练和评估多模态大语言模型（MLLMs）的跨视角空间推理能力。其最经典的使用场景是作为多视角物体级问答（QA）任务的训练与测试平台，涵盖对应关系、可见性与遮挡判断、几何关系推理以及物理接触推断等17种细粒度任务类型。研究者通过在该数据集上进行指令微调，使模型学习从不同视角中识别相同物理实例并建立显式跨视角对应关系，从而突破单视角感知的局限，推动MLLMs向真正的空间智能迈进。

解决学术问题

该数据集解决了学术界长期困扰的三大核心问题：第一，缺乏大规模、带实例掩码的跨视角监督数据，现有资源如Ego-Exo4D虽含同步视角但未组织为统一的掩码引导指令格式；第二，缺少多维度、场景解耦的系统性评测基准，已有基准如MMVM和All-Angles Bench仅覆盖少数任务且未与训练集场景隔离；第三，缺乏面向跨视角推理的显式物体级对齐机制，当前MLLMs依赖隐式融合而无法建立稳定的跨视角物体对应。CrossViewSet通过多智能体数据引擎自动生成1.6M样本，填补了这些空白，其意义在于首次将跨视角空间推理从零散研究推进到规模化训练与标准化评估的完整闭环，显著提升了模型在未见场景中的泛化能力。

衍生相关工作

CrossViewSet的发布催生了一系列重要衍生工作。其多智能体数据引擎的设计理念被后续研究借鉴，用于自动构建其他领域的大规模指令数据集，如EOC-Bench在自我中心视角任务中采用了类似的自动化标注流程。此外，配套的CrossViewer模型提出的渐进式感知-对齐-推理三阶段框架，启发了诸如ObjectRelator等工作在跨视角物体关系理解中的显式对齐策略。基于CrossViewSet的评测体系，研究者进一步开发了面向3D场景理解的MV-ScanQA基准，推动了多视角推理从平面图像向三维空间的拓展。同时，该数据集的掩码引导范式也被引入视频理解领域，催生了如VideoRefer Suite等面向时空物体推理的系统性工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集