Scene-30K

Name: Scene-30K
Creator: 北京大学计算机科学学院
Published: 2025-07-31 19:59:06
License: 暂无描述

arXiv2025-07-31 更新2025-08-02 收录

下载链接：

https://github.com/AIGeeksGroup/3DR1, https://aigeeksgroup.github.io/3D-R1

下载链接

链接失效反馈

官方服务：

资源简介：

Scene-30K数据集是一个高质量的合成数据集，包含丰富的三维场景问答和推理数据，为三维视觉语言模型（3D-VLMs）提供冷启动初始化数据。该数据集由北京大学计算机科学学院的研究团队构建，利用现有的3D-VL数据集和基于Gemini 2.5 Pro的数据引擎生成，旨在提升3D-VLMs的空间推理和泛化能力。数据集包含30,000个复杂的三维场景问答推理样本，通过规则过滤进行数据清洗，确保数据质量和推理精度。该数据集的应用领域包括但不限于三维场景稠密描述、三维物体描述、三维问答、三维对话、三维视觉定位和三维推理规划等，为智能系统在三维场景理解方面提供重要的数据支持。

The Scene-30K Dataset is a high-quality synthetic dataset containing rich 3D scene question-answering and reasoning data, which provides cold-start initialization data for 3D vision-language models (3D-VLMs). Constructed by a research team from the School of Computer Science, Peking University, this dataset is generated using existing 3D-VL datasets and a Gemini 2.5 Pro-powered data engine, aiming to enhance the spatial reasoning and generalization capabilities of 3D-VLMs. The dataset includes 30,000 complex 3D scene question-answering and reasoning samples, with data cleaning conducted via rule-based filtering to ensure data quality and reasoning accuracy. Its application scenarios include, but are not limited to, dense 3D scene description, 3D object description, 3D question-answering, 3D dialogue, 3D visual grounding, and 3D reasoning and planning, providing critical data support for intelligent systems to achieve 3D scene understanding.

提供机构：

北京大学计算机科学学院

创建时间：

2025-07-31

搜集汇总

数据集介绍

构建方式

Scene-30K数据集的构建采用了多模态数据融合与链式思维（CoT）生成技术，通过整合现有3D-VL数据集（如ScanRefer、Nr3D等）并基于Gemini 2.5 Pro设计数据引擎。首先利用预训练的3D视觉语言模型生成场景的文本描述，随后通过大语言模型生成包含逐步推理的高质量CoT数据。最终经过基于规则的过滤流程，剔除结构不完整或逻辑不一致的样本，形成包含30K条复杂推理样本的合成数据集，作为3D-R1模型的冷启动初始化数据。

特点

该数据集的核心特点在于其链式思维标注的丰富性与空间推理的完整性。每条数据均包含场景ID、问题、机器生成的<think>推理过程和<answer>最终答案，覆盖3D场景密集描述（3D-DC）、视觉定位（3D-VG）、问答（3D-QA）等七类任务。通过动态视角选择策略，数据集实现了对3D场景多角度语义的适应性捕捉，且所有CoT数据均通过Levenshtein相似度阈值（≥0.8）验证逻辑一致性，确保推理步骤与答案的强关联性。

使用方法

使用该数据集时，需通过多模态编码器（文本、点云、深度图、多视角图像）提取特征并输入统一架构。冷启动阶段采用监督微调（SFT）学习<think>...</think><answer>...</answer>的结构化输出格式；强化学习阶段则结合GRPO策略与感知奖励、语义相似度奖励、格式奖励进行优化。动态视角选择模块可自动计算场景视图的文本相关性、空间覆盖度和CLIP对齐分数，选择最具信息量的6个视角作为输入，适用于机器人导航、混合现实等需要实时空间理解的场景。

背景与挑战

背景概述

Scene-30K数据集由上海工程技术大学和北京大学的研究团队于2025年创建，旨在推动三维视觉语言模型（3D-VLM）在场景理解领域的发展。该数据集通过融合现有3D-VL数据集并利用Gemini 2.5 Pro数据引擎，构建了包含30,000个高质量合成样本的链式思维（CoT）数据集，作为3D-R1基础模型的冷启动初始化数据。其核心研究聚焦于解决三维场景理解中的空间关系推理和动态视角适应问题，显著提升了模型在密集描述、视觉定位等七项任务中的性能，平均改进幅度达10%。该数据集通过引入动态视角选择策略和强化学习优化框架，为机器人导航、混合现实等应用提供了更精准的三维语义理解能力。

当前挑战

Scene-30K面临的挑战主要体现在两个方面：领域问题层面，需解决三维场景中复杂空间关系的多模态对齐难题，如物体遮挡导致的视角歧义、动态场景下的语义一致性保持等；构建过程层面，合成数据的真实性受限，需通过规则过滤确保CoT逻辑的严密性，同时平衡多视角数据的覆盖密度与计算效率。具体包括：1）在3D视觉定位任务中，模型需克服点云数据稀疏性对细粒度物体识别的干扰；2）数据引擎需协调文本描述与三维几何特征的精确映射，避免生成式LLM引入的语义漂移；3）强化学习训练中需同步优化感知奖励、语义相似度奖励和格式奖励三项指标，防止策略优化的局部收敛。

常用场景

经典使用场景

Scene-30K数据集在3D视觉语言模型（3D-VLM）的研究中扮演了关键角色，尤其在提升模型的空间推理和场景理解能力方面。该数据集通过提供高质量的合成场景描述和链式思维（CoT）数据，为模型训练提供了丰富的上下文信息。经典使用场景包括3D场景密集描述（3D-DC）、3D视觉定位（3D-VG）以及3D问答（3D-QA）。例如，在3D-DC任务中，模型需要根据3D点云生成详细的场景描述，而Scene-30K的CoT数据则帮助模型逐步推理并输出结构化答案。

衍生相关工作

Scene-30K数据集衍生了多项经典工作，推动了3D视觉语言模型的发展。例如，3D-R1模型通过结合该数据集的CoT数据和强化学习策略，在多个3D场景理解任务中实现了显著性能提升。此外，动态视角选择方法被广泛应用于后续研究，如LLaVA-3D和3D-LLaVA等模型，进一步优化了多模态数据的融合效率。这些工作不仅验证了数据集的通用性，也为3D场景理解的标准化评估提供了重要基准。

数据集最近研究