3D Relevance Discrimination QA (3D-RDQA)

Name: 3D Relevance Discrimination QA (3D-RDQA)
Creator: 中山大学深圳校区, 华为诺亚方舟实验室, MBZUAI, 鹏城实验室, 广东省大数据分析与处理重点实验室
Published: 2025-06-06 01:56:12
License: 暂无描述

arXiv2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/Li-Hao-yuan/3DRDQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在通过破坏捷径学习和促进真正的3D场景理解，帮助研究人员更好地评估和改进3D场景理解策略。

This dataset is designed to disrupt shortcut learning and foster genuine 3D scene understanding, thereby assisting researchers in better evaluating and refining 3D scene understanding strategies.

提供机构：

中山大学深圳校区, 华为诺亚方舟实验室, MBZUAI, 鹏城实验室, 广东省大数据分析与处理重点实验室

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

3D Relevance Discrimination QA (3D-RDQA) 数据集的构建基于对现有3D视觉语言模型（3D VLMs）在场景理解中存在的缺陷进行系统性分析。研究团队通过设计一种对抗性数据生成策略，对原始ScanQA数据集中的3D场景标记进行有针对性干扰，生成包含真实与干扰样本的配对数据。具体流程包括：首先基于ScanQA-Choice（ScanQA的多选题版本）构建基础问答对，随后采用3D标记污染技术，通过替换场景源或置零操作生成语义冲突的负样本，最终形成具有判别性质的问答对集合。这种构建方法有效打破了模型对文本线索的过度依赖，强制其关注3D空间信息。

特点

该数据集的核心特征体现在其对抗性评估机制的设计上。每个数据单元包含原始3D场景标记与受干扰标记的对比样本，要求模型识别真实匹配的问答关系。数据分布经过精心设计，通过平衡高频答案的干扰选项和引入特殊判别选项（如"E"），有效抑制模型对统计偏见的依赖。不同于传统3D-QA数据集，3D-RDQA通过强制模型在冲突信息中做出判断，显著提升了评估的严谨性。此外，数据集支持对模型3D编码器利用率的量化分析，为研究预训练阶段的有效性提供了新的评估维度。

使用方法

使用3D-RDQA数据集时，建议采用分阶段训练策略以充分发挥其评估价值。在预训练阶段，可利用数据集中的原始样本进行跨模态对齐；在微调阶段，则需将正负样本配对输入以增强模型判别能力。评估时应重点关注模型在污染样本上的表现差异，通过对比有无3D编码器输入的准确率变化来量化空间理解能力。为规避数据泄露风险，需确保测试集不包含训练时使用的干扰样本。该数据集特别适合用于：1) 诊断3D VLMs对空间信息的实际利用率；2) 验证新型预训练策略的有效性；3) 开发抗干扰的鲁棒性3D场景理解模型。

背景与挑战

背景概述

3D Relevance Discrimination QA (3D-RDQA) 数据集由华为诺亚方舟实验室与中山大学深圳校区等机构的研究团队于2025年6月提出，旨在解决三维视觉语言模型（3D VLMs）在空间场景理解中的关键挑战。该数据集基于对现有3D场景中心化VLM的深入分析而构建，核心研究问题是揭示模型对文本线索的过度依赖及对高频答案分布的过拟合现象，从而推动真正的三维空间推理能力发展。其创新性在于通过设计对抗性数据对来打破模型对表面问答关系的依赖，显著影响了三维多模态学习领域的研究方向。

当前挑战

该数据集主要面临三方面挑战：1) 领域问题层面，需解决三维视觉语言模型在复杂空间结构中难以有效利用几何信息的问题，如模型常忽略3D编码器提取的特征而仅依赖文本模式匹配；2) 构建过程中需克服三维数据标注成本高、场景多样性不足的难题，特别是创建能有效干扰模型但保持语义合理性的'中毒'样本；3) 评估维度上，需设计能区分模型是否真正理解三维空间的判别性指标，避免传统问答指标对文本模式的偏向性。此外，数据规模扩展带来的性能增益递减现象也增加了构建高效数据集的复杂性。

常用场景

经典使用场景

3D-RDQA数据集在3D视觉语言模型（3D-VLM）的研究中扮演着关键角色，特别是在评估模型对3D场景的真实理解能力方面。该数据集通过设计具有干扰性的3D-QA对，迫使模型在回答问题时必须依赖3D空间信息，而非仅凭文本线索。这一设计使得3D-RDQA成为验证3D场景中心化VLM是否真正“看到”3D场景的黄金标准工具。

衍生相关工作

3D-RDQA的提出催生了一系列关注3D场景本质理解的研究工作。基于其核心思想，研究者们开发了3D-RDDC（密集描述）和3D-RDVG（视觉定位）等衍生数据集。在方法论层面，该数据集启发了对Direct Preference Optimization（DPO）等训练范式在3D理解中应用的探索。相关工作如LSceneLLM中的细粒度token选择机制，以及Grounded 3D-LLM的对比学习预训练策略，都直接受益于3D-RDQA揭示的学术见解。

数据集最近研究