4D-Bench

Name: 4D-Bench
Creator: 阿卜杜拉国王科技大学
Published: 2025-03-23 01:55:53
License: 暂无描述

arXiv2025-03-23 更新2025-03-26 收录

下载链接：

https://4dbench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

4D-Bench是一个专为评估多模态大型语言模型在4D对象理解能力上的新基准。该数据集包含多样化的4D对象类别，高质量注释，并设计有需要多视角时空理解的4D对象问答和4D对象字幕任务。数据集通过渲染Objaverse-XL中的动态3D对象来构建，并经过精心设计的数据清洗流程以确保数据质量。它为多模态大型语言模型在4D对象理解方面的评估提供了新的挑战，并可作为图像/视频MLLMs的泛化评估基准。

4D-Bench is a novel benchmark specifically designed to evaluate the 4D object understanding capabilities of multimodal large language models. This dataset encompasses diverse 4D object categories and high-quality annotations, and features 4D object question answering and 4D object captioning tasks that demand multi-view spatio-temporal comprehension. Constructed by rendering dynamic 3D objects from Objaverse-XL, the dataset has undergone a meticulously designed data cleaning pipeline to ensure data quality. It presents new challenges for evaluating the 4D object understanding performance of multimodal large language models, and can serve as a generalizable evaluation benchmark for image/video-based MLLMs.

提供机构：

阿卜杜拉国王科技大学

创建时间：

2025-03-23

搜集汇总

数据集介绍

构建方式

4D-Bench数据集的构建采用了多阶段流程，首先从Objaverse-XL中收集动态3D对象，并通过像素变化检测筛选出具有显著运动特征的样本。随后基于CLIP模型开发了视觉质量评估框架，人工标注数千张图像作为训练数据，通过微调CLIP图像编码器构建质量分类器，有效过滤低质量对象。针对4D对象问答任务，采用混合标注策略：先由专业标注员设计需要多视角时空理解的问题，后利用GPT-4o和Qwen2-VL等MLLMs生成候选问题，经Qwen2-VL 7B初筛和Llama 3.1盲测过滤后，最终由人工审核确保问题质量。对于4D对象描述任务，从8000个候选对象中精选580个样本，每个对象由五名专业标注员独立撰写描述，经审核确保覆盖关键细节且保持表述多样性。

特点

该数据集的核心特征体现在三维时空耦合的评估维度，通过多视角视频呈现4D对象（动态3D模型），要求模型同时处理空间视角变换和时间演化信息。数据构成包含751个问答对和580个带多描述的对象，覆盖动作识别、外观描述、物体计数等五大子任务。特别值得注意的是其反事实数据设计，包含违背物理规律的合成对象运动，可检验模型对非常规场景的理解能力。与现有2D视频基准相比，该数据集在评估指标上创新性地引入GPT-Appearance和GPT-Action双维度评分体系，通过大型语言模型量化生成描述在表观特征和动作刻画上的准确性。

使用方法

使用该数据集时需遵循多视角时空采样的输入规范：从24个视角视频中各均匀抽取6帧，形成3×6的帧矩阵作为模型输入。评估分为问答和描述两大任务，问答任务采用四项选择题形式评估，描述任务则通过BLEU、ROUGE等传统指标结合GPT双维度评分进行综合评价。实验设置建议固定3个视角和6帧采样频率以平衡信息完整性与计算效率。对于反事实数据子集，可专门分析模型在违背物理常识场景下的表现差异。为避免评估偏差，需注意不同模型生成描述的格式统一性，建议采用后处理函数标准化答案提取流程。

背景与挑战

背景概述

4D-Bench是由King Abdullah University of Science and Technology (KAUST)等机构的研究团队于2025年提出的首个专注于评估多模态大语言模型(MLLMs)在四维物体理解能力的基准数据集。该数据集填补了动态三维物体（3D物体随时间演化）语言理解领域的评估空白，包含4D物体问答和描述生成两大任务，涵盖多样化的物体类别并配备高质量人工标注。作为数字孪生、增强现实等应用的基础研究工具，4D-Bench通过多视角时空推理需求推动了MLLMs在复杂三维动态场景理解方面的发展。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，现有MLLMs对动态三维物体的时空演化理解显著弱于静态特征识别，尤其在物体计数（平均准确率37.29%）和动作识别任务表现较差；在构建过程中，面临合成数据标注成本高（人工标注保留率从92%降至62.5%）、多视角时空一致性标注困难，以及缺乏现成4D-文本配对数据等问题。此外，数据集中反事实物理规律的物体（如六腿蜘蛛）暴露出模型过度依赖先验知识而非实际观察的缺陷。

常用场景

经典使用场景

在动态3D物体理解领域，4D-Bench作为首个专注于评估多模态大语言模型（MLLMs）对四维物体（3D物体随时间演化）理解能力的基准测试，其经典应用场景包括4D物体问答（4D object QA）和4D物体描述生成（4D object captioning）。通过多视角时空推理任务，该数据集有效检验模型在合成或虚构物体的外观属性分析、局部精细运动检测及跨视角信息整合等复杂场景下的表现。

实际应用

该数据集在数字孪生、增强现实等工业场景中具有重要应用价值。其提供的反事实测试数据（如违反物理定律的球体运动）能有效验证模型对真实世界知识的依赖程度。实验表明，即使GPT-4o等顶尖模型在6腿机械蜘蛛识别等反事实任务中错误率高达100%，这为虚拟内容生成系统的可靠性评估提供了关键测试基准。

衍生相关工作

4D-Bench的发布推动了多项衍生研究：在模型架构层面，催生了如3D-LLM等专注于时空对齐的跨模态模型；在评估体系方面，启发了SEED-Bench-2等基准对长视频理解能力的层级化评估；同时为Text-to-4D生成模型（如DreamGaussian4D）提供了描述质量量化标准，形成从评估到生成的完整研究闭环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集