DL3DV-2k

Name: DL3DV-2k
Creator: InternLM
Published: 2026-05-22 20:50:50
License: 暂无描述

Hugging Face2026-05-22 更新2026-05-23 收录

下载链接：

https://huggingface.co/datasets/internlm/DL3DV-2k

下载链接

链接失效反馈

官方服务：

资源简介：

DL3DV-2K是一个从DL3DV数据集构建的基准测试集，专门用于评估大语言模型在空间推理任务中的视点转换能力。该数据集总共包含2,000个样本，每个样本由原始视角的图像、作为人类参考的变换后辅助图像（不直接作为模型的问题输入）、一个问题、一组候选答案以及对应的正确答案构成。核心任务要求模型仅基于原始图像，推理并想象出从辅助图像的视点所观察到的场景，从而正确回答相关问题。该数据集适用于视觉问答和空间理解相关的模型训练与评估。

提供机构：

InternLM

创建时间：

2026-05-21

原始信息汇总

数据集概述：DL3DV-2K

数据集名称: DL3DV-2K
许可证: MIT
任务类别: 视觉问答（visual-question-answering）、问答（question-answering）
语言: 英语
标签: 空间理解（Spatial Understanding）
数据规模: 1K < n < 10K（约2K样本）

数据集描述

DL3DV-2K 是一个基于 DL3DV 数据集构建的基准测试集，用于评估大型模型在空间推理任务中的视点变换能力。该数据集共包含 2K 个样本。

样本结构

每个样本包含以下字段：

images（原始图像）: 输入图像。
aux_images（辅助图像）: 变换后的图像，仅作为人工参考提供，不作为问题输入使用。
question（问题）: 基于图像提出的问题。
candidates（候选答案）: 候选答案列表。
answer（答案）: 正确答案。

任务要求

模型需要从原始图像（images）中想象辅助图像（aux_images）的视点，从而有效回答问题（question）。

引用方式

如使用本数据集，请引用相关论文及资源。

搜集汇总

数据集介绍

构建方式

DL3DV-2K数据集源自DL3DV数据集，专为评估大模型在空间推理任务中的视角变换能力而构建。该基准共包含2000个样本，每个样本由原始图像、变换后的辅助图像、问题、候选选项及正确答案组成。其中，辅助图像仅作为人类参考，不参与模型输入，模型需依靠原始图像想象辅助图像的视角来回答问题。

使用方法

使用时，研究者可将原始图像与问题输入模型，令其从候选选项中选出正确描述辅助图像视角的答案。模型无法直接获取辅助图像，必须依赖对原始图像的空间解析来完成任务。该基准适用于评估视觉问答、空间推理等任务，可用于模型的性能测试与能力对比。

背景与挑战

背景概述

DL3DV-2K数据集由上海人工智能实验室（InternLM）团队于近期构建，旨在评估大语言模型在空间推理任务中的视角变换能力。该数据集源自DL3DV数据集，精选2000个样本，每个样本包含原始图像、辅助图像（仅供人类参考）、问题、候选答案及正确答案。其核心研究问题在于探究模型能否基于单一视角的图像推演其他视角的视觉内容并回答空间理解相关问题。DL3DV-2K的提出为多模态大模型的空间认知能力评测提供了标准化基准，推动了具身智能与三维视觉理解领域的发展。

当前挑战

DL3DV-2K所解决的领域问题是空间理解中视角变换推理的挑战，即模型需要突破固定视角限制，通过想象不同视角的视觉特征来回答空间关系问题。构建过程中面临的核心挑战包括：如何从海量DL3DV数据中筛选出能有效检验视角变换能力的样本，确保问题设计不依赖辅助图像中的线索而仅基于原始图像；如何平衡样本多样性（如场景、视角差异和问题复杂度）与数据规模，以构建具有代表性和判别力的评测基准。

常用场景

经典使用场景

在空间智能与视觉推理的交汇领域，DL3DV-2k数据集如同一把精密的标尺，专门用于评估大模型在视点变换任务中的空间理解能力。该数据集精心挑选了2000个样本，每个样本均包含原始图像与辅助图像，要求模型仅基于原始图像想象并推断出辅助图像所对应的视角，从而回答预设的空间或视觉问题。这一设计巧妙地将三维场景理解与二维图像推理相结合，为衡量模型的空间感知、视角转换及跨视角一致性等能力提供了标准化测试平台。

解决学术问题

该数据集的核心价值在于填补了现有视觉问答任务中缺乏空间视角变换评估的空白。传统评估多聚焦于物体识别、属性判断等静态属性，而DL3DV-2k瞄准了模型对三维空间结构的动态洞察力，即能否通过单一视角的输入生成对其他视角的认知表征。其解决的学术问题包括：大模型是否具备隐式的三维场景重建能力，以及能否在不需要显式几何约束的情况下，完成跨视角的语义推理。这推动了计算机视觉与自然语言处理在空间推理方向上的深度融合。

实际应用

在实际应用中，DL3DV-2k所代表的空间视角变换能力具有广阔前景。例如，在自动驾驶领域，车辆需通过车载摄像头影像预测盲区或前方不同角度的路况；在增强现实与虚拟现实交互中，系统需根据用户当前视野快速生成其他视角的虚拟场景内容；在机器人导航中，智能体需要依据单一视角的记忆，推测环境布局并规划后续动作。该数据集为这些场景下模型的鲁棒性、泛化性及空间理解深度提供了关键基准。

数据集最近研究