4D-Bench
收藏arXiv2025-03-23 更新2025-03-26 收录
下载链接:
https://4dbench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
4D-Bench是一个专为评估多模态大型语言模型在4D对象理解能力上的新基准。该数据集包含多样化的4D对象类别,高质量注释,并设计有需要多视角时空理解的4D对象问答和4D对象字幕任务。数据集通过渲染Objaverse-XL中的动态3D对象来构建,并经过精心设计的数据清洗流程以确保数据质量。它为多模态大型语言模型在4D对象理解方面的评估提供了新的挑战,并可作为图像/视频MLLMs的泛化评估基准。
4D-Bench is a novel benchmark specifically designed to evaluate the 4D object understanding capabilities of multimodal large language models. This dataset encompasses diverse 4D object categories and high-quality annotations, and features 4D object question answering and 4D object captioning tasks that demand multi-view spatio-temporal comprehension. Constructed by rendering dynamic 3D objects from Objaverse-XL, the dataset has undergone a meticulously designed data cleaning pipeline to ensure data quality. It presents new challenges for evaluating the 4D object understanding performance of multimodal large language models, and can serve as a generalizable evaluation benchmark for image/video-based MLLMs.
提供机构:
阿卜杜拉国王科技大学
创建时间:
2025-03-23
搜集汇总
数据集介绍

构建方式
4D-Bench数据集的构建采用了多阶段流程,首先从Objaverse-XL中收集动态3D对象,并通过像素变化检测筛选出具有显著运动特征的样本。随后基于CLIP模型开发了视觉质量评估框架,人工标注数千张图像作为训练数据,通过微调CLIP图像编码器构建质量分类器,有效过滤低质量对象。针对4D对象问答任务,采用混合标注策略:先由专业标注员设计需要多视角时空理解的问题,后利用GPT-4o和Qwen2-VL等MLLMs生成候选问题,经Qwen2-VL 7B初筛和Llama 3.1盲测过滤后,最终由人工审核确保问题质量。对于4D对象描述任务,从8000个候选对象中精选580个样本,每个对象由五名专业标注员独立撰写描述,经审核确保覆盖关键细节且保持表述多样性。
特点
该数据集的核心特征体现在三维时空耦合的评估维度,通过多视角视频呈现4D对象(动态3D模型),要求模型同时处理空间视角变换和时间演化信息。数据构成包含751个问答对和580个带多描述的对象,覆盖动作识别、外观描述、物体计数等五大子任务。特别值得注意的是其反事实数据设计,包含违背物理规律的合成对象运动,可检验模型对非常规场景的理解能力。与现有2D视频基准相比,该数据集在评估指标上创新性地引入GPT-Appearance和GPT-Action双维度评分体系,通过大型语言模型量化生成描述在表观特征和动作刻画上的准确性。
使用方法
使用该数据集时需遵循多视角时空采样的输入规范:从24个视角视频中各均匀抽取6帧,形成3×6的帧矩阵作为模型输入。评估分为问答和描述两大任务,问答任务采用四项选择题形式评估,描述任务则通过BLEU、ROUGE等传统指标结合GPT双维度评分进行综合评价。实验设置建议固定3个视角和6帧采样频率以平衡信息完整性与计算效率。对于反事实数据子集,可专门分析模型在违背物理常识场景下的表现差异。为避免评估偏差,需注意不同模型生成描述的格式统一性,建议采用后处理函数标准化答案提取流程。
背景与挑战
背景概述
4D-Bench是由King Abdullah University of Science and Technology (KAUST)等机构的研究团队于2025年提出的首个专注于评估多模态大语言模型(MLLMs)在四维物体理解能力的基准数据集。该数据集填补了动态三维物体(3D物体随时间演化)语言理解领域的评估空白,包含4D物体问答和描述生成两大任务,涵盖多样化的物体类别并配备高质量人工标注。作为数字孪生、增强现实等应用的基础研究工具,4D-Bench通过多视角时空推理需求推动了MLLMs在复杂三维动态场景理解方面的发展。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,现有MLLMs对动态三维物体的时空演化理解显著弱于静态特征识别,尤其在物体计数(平均准确率37.29%)和动作识别任务表现较差;在构建过程中,面临合成数据标注成本高(人工标注保留率从92%降至62.5%)、多视角时空一致性标注困难,以及缺乏现成4D-文本配对数据等问题。此外,数据集中反事实物理规律的物体(如六腿蜘蛛)暴露出模型过度依赖先验知识而非实际观察的缺陷。
常用场景
经典使用场景
在动态3D物体理解领域,4D-Bench作为首个专注于评估多模态大语言模型(MLLMs)对四维物体(3D物体随时间演化)理解能力的基准测试,其经典应用场景包括4D物体问答(4D object QA)和4D物体描述生成(4D object captioning)。通过多视角时空推理任务,该数据集有效检验模型在合成或虚构物体的外观属性分析、局部精细运动检测及跨视角信息整合等复杂场景下的表现。
实际应用
该数据集在数字孪生、增强现实等工业场景中具有重要应用价值。其提供的反事实测试数据(如违反物理定律的球体运动)能有效验证模型对真实世界知识的依赖程度。实验表明,即使GPT-4o等顶尖模型在6腿机械蜘蛛识别等反事实任务中错误率高达100%,这为虚拟内容生成系统的可靠性评估提供了关键测试基准。
衍生相关工作
4D-Bench的发布推动了多项衍生研究:在模型架构层面,催生了如3D-LLM等专注于时空对齐的跨模态模型;在评估体系方面,启发了SEED-Bench-2等基准对长视频理解能力的层级化评估;同时为Text-to-4D生成模型(如DreamGaussian4D)提供了描述质量量化标准,形成从评估到生成的完整研究闭环。
以上内容由遇见数据集搜集并总结生成



