3D-MoRe

Name: 3D-MoRe
Creator: 北京邮电大学, 中国科学院自动化研究所, 中山大学, 山东计算机科学中心
Published: 2025-07-16 16:38:26
License: 暂无描述

arXiv2025-07-16 更新2025-07-18 收录

下载链接：

https://3D-MoRe.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

3D-MoRe数据集由北京邮电大学等机构的研究人员创建，是一个大规模的3D语言数据集。该数据集由ScanNet场景数据、ScanQA和ScanRefer的文本注释生成，包含62,000个问答对和73,000个物体描述，涵盖了1,513个场景。数据集的创建过程中采用了多种数据增强技术和语义过滤，以确保数据质量。该数据集旨在解决3D问答和3D密集描述任务中的多模态推理问题，并在ScanQA和ScanRefer上的实验中取得了显著的性能提升。

The 3D-MoRe dataset was developed by researchers from institutions including Beijing University of Posts and Telecommunications, and is a large-scale 3D language dataset. It is generated from ScanNet scene data and textual annotations from ScanQA and ScanRefer, containing 62,000 question-answer pairs and 73,000 object descriptions, and covering 1,513 unique scenes. A range of data augmentation techniques and semantic filtering methods were adopted during the dataset creation process to ensure high data quality. This dataset is designed to address multimodal reasoning challenges in 3D question answering and 3D dense description tasks, and has achieved notable performance improvements in experiments conducted on both ScanQA and ScanRefer.

提供机构：

北京邮电大学, 中国科学院自动化研究所, 中山大学, 山东计算机科学中心

创建时间：

2025-07-16

原始信息汇总

3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering

概述

数据集名称：3D-MoRe
主要目标：通过基础模型生成大规模3D-语言数据集，支持室内场景任务（如问答和密集描述）
核心组件：多模态嵌入、跨模态交互、语言模型解码器
应用场景：处理自然语言指令和3D场景数据，增强复杂3D环境中的推理和响应生成

数据生成

基础数据源：ScanNet 3D场景数据集
文本标注来源：ScanQA和ScanRefer
生成数据量：
- 62,000个问答对（QA pairs）
- 73,000个对象描述
覆盖场景：1,513个场景
数据质量控制：采用数据增强技术和语义过滤

性能表现

在ScanQA任务中：
- CIDEr分数提升2.15%
在ScanRefer任务中：
- CIDEr@0.5分数提升1.84%

方法

训练目标：通用代理，处理多种3D-语言任务
输入处理：
- 3D场景上下文（点云）
- 视觉提示（3D边界框和实例提示）
- 自然语言指令
输出：自然语言响应

相关链接

论文地址：https://arxiv.org/abs/2507.12026
BibTeX引用： bibtex @misc{xu20253dmoreunifiedmodalcontextualreasoning, title={3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering}, author={Rongtao Xu and Han Gao and Mingming Yu and Dong An and Shunpeng Chen and Changwei Wang and Li Guo and Xiaodan Liang and Shibiao Xu}, year={2025}, eprint={2507.12026}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.12026}, }

搜集汇总

数据集介绍

构建方式

3D-MoRe数据集的构建采用了创新的多模态融合范式，通过整合ScanNet 3D场景数据、ScanQA的问答对以及ScanRefer的文本标注，构建了一个大规模的3D-语言数据集。具体而言，该框架结合了多模态嵌入、跨模态交互和语言模型解码器，能够处理自然语言指令和3D场景数据。通过语义搜索和相似性过滤技术，确保了生成数据的质量，最终产生了62,000个问答对和73,000个对象描述，覆盖了1,513个场景。数据增强技术如同义词替换、句子重组和逻辑重构进一步提升了数据的多样性和质量。

特点

3D-MoRe数据集的特点在于其多模态融合和大规模覆盖。数据集不仅包含了丰富的3D场景数据，还整合了自然语言指令和对象描述，为3D问答和密集标注任务提供了全面的支持。通过语义过滤和数据增强技术，数据集在多样性和质量上均达到了较高水平。实验结果表明，该数据集在ScanQA和ScanRefer任务上的表现显著优于现有基线，CIDEr分数分别提升了2.15%和1.84%，展现了其在复杂3D环境中的强大推理能力。

使用方法

3D-MoRe数据集的使用方法主要围绕其多模态特性展开。研究人员可以通过该数据集训练3D-语言模型，以处理3D问答和密集标注任务。具体步骤包括：首先，利用多模态嵌入模块对3D场景、视觉提示和文本指令进行编码；其次，通过跨模态交互模块对齐和融合不同模态的特征；最后，使用语言模型解码器生成自然语言响应。数据集还支持数据增强和语义过滤，用户可以根据任务需求灵活调整数据生成和过滤策略，以优化模型性能。

背景与挑战

背景概述

3D-MoRe数据集由Rongtao Xu、Han Gao等研究人员于2024年提出，旨在解决三维场景理解中的多模态推理问题。该数据集基于ScanNet 3D场景数据集，结合ScanQA和ScanRefer的文本标注，生成了62,000个问答对和73,000个物体描述，覆盖1,513个场景。3D-MoRe通过整合多模态嵌入、跨模态交互和语言模型解码器，显著提升了三维问答和密集描述任务的性能，推动了三维视觉与语言融合领域的发展。

当前挑战

3D-MoRe数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，三维问答和密集描述任务需要模型具备深度的场景理解和空间推理能力，这对多模态数据的对齐和上下文理解提出了较高要求。在构建过程中，数据生成的复杂性、提示构造的准确性以及数据质量的过滤是主要难点。此外，如何确保生成的数据具有足够的多样性和高质量，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

3D-MoRe数据集在三维场景理解与语言交互领域具有广泛的应用价值，其经典使用场景主要体现在三维问答（3DQA）和密集标注任务中。通过整合ScanNet的三维场景数据与ScanQA、ScanRefer的文本标注，该数据集能够支持模型在复杂三维环境中进行多模态推理。例如，在智能家居或机器人导航场景中，模型需要回答诸如“房间中棕色桌子位于何处？”这类问题，同时生成对场景中物体的详细描述。数据集通过生成62,000个问答对和73,000个物体描述，显著提升了模型在空间推理和语言生成方面的能力。

衍生相关工作

3D-MoRe数据集衍生了一系列经典工作，例如基于其构建的3D-LLM模型通过三分支编码架构实现了模态对齐与响应生成。相关研究如LL3DA和Chat-3D V2进一步扩展了三维场景下的指令微调与规划能力。此外，数据集启发了跨模态预训练方法（如3D-VLP）和密集标注技术（如MORE），推动了三维视觉与语言任务的协同发展。这些工作共同构成了三维多模态推理领域的研究生态。

数据集最近研究