UrbanVideo-Bench

Name: UrbanVideo-Bench
Creator: 清华大学
Published: 2025-03-08 18:47:05
License: 暂无描述

arXiv2025-03-08 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.06157v1

下载链接

链接失效反馈

官方服务：

资源简介：

UrbanVideo-Bench是一个针对城市3D开放空间中运动认知的基准数据集。该数据集由清华大学研究团队创建，包含1500个视频片段，这些视频片段通过人工操控无人机在真实城市和模拟环境中收集得到。数据集旨在评估大型多模态模型在连续第一人称视觉观察下的运动认知能力，包括回忆、感知、推理和导航等方面。数据集覆盖了复杂城市场景和丰富的语义信息，通过设计不同类型的任务，如轨迹描述、序列回忆、目标检测、导航规划等，全面评估模型在理解城市空间运动方面的智能水平。

UrbanVideo-Bench is a benchmark dataset for motion cognition in urban 3D open spaces. Developed by a research team from Tsinghua University, it contains 1500 video clips collected via manually piloted drones in both real urban and simulated environments. This dataset aims to evaluate the motion cognition capabilities of large multimodal models during continuous first-person visual observations, covering aspects such as recall, perception, reasoning, and navigation. Covering complex urban scenarios and rich semantic information, UrbanVideo-Bench comprehensively assesses the intelligent level of models in understanding urban spatial motion by designing various types of tasks including trajectory description, sequence recall, object detection, navigation planning, and so on.

提供机构：

清华大学

创建时间：

2025-03-08

搜集汇总

数据集介绍

构建方式

UrbanVideo-Bench数据集的构建主要分为视频采集、多选题生成、盲过滤和人工校准四个步骤。首先，研究人员手动操控无人机，在中国广东省的深圳市和肇庆市收集了城市环境中的真实3D运动视频数据，并通过EmbodiedCity和AerialVLN模拟器扩展了数据集。其次，他们开发了一个基于Chain-of-thought (CoT)的提示方法，利用预训练的大型语言模型（LLM）生成与视频内容相关的高质量多选题。然后，他们使用多个LLM进行盲过滤，移除仅凭常识就能回答的问题。最后，人工校准过程确保了问题的有效性、选项的清晰性和答案的准确性。

使用方法

使用UrbanVideo-Bench数据集的方法包括评估和微调视频-语言模型（Video-LLM）。评估方面，研究人员使用多选题的准确率作为评价指标，对17种流行的Video-LLM进行了评估。微调方面，他们使用LoRA技术对InternVL2-4B和InternVL2-8B模型进行了监督微调，以探索模拟数据到真实世界的迁移潜力。实验结果表明，通过微调，模型在真实世界数据上的表现有所提升，表明Sim-to-Real迁移在UrbanVideo-Bench中是可行的。

背景与挑战

背景概述

UrbanVideo-Bench数据集的研究背景源于对大型多模态模型在开放城市3D空间中的运动认知能力的探索。该数据集由清华大学的研究团队创建，旨在评估视频大型语言模型（Video-LLMs）是否能够像人类一样自然地处理连续的第一人称视觉观察，从而实现回忆、感知、推理和导航。该数据集收集了1500个视频片段，并设计了一个流程来生成5200个多项选择题。UrbanVideo-Bench数据集对相关领域的影响体现在提供了首个专门针对城市开放空间中运动的具身认知能力的基准测试，为未来城市应用提供了新的视角。

当前挑战

UrbanVideo-Bench数据集面临的主要挑战包括：1)创建一个任务集来评估城市空间中的具身能力；2)获取视频数据，包括手动控制无人机从现实世界的城市和模拟环境中收集3D具身运动视频数据，这在数据收集过程中具有挑战性；3)设计逻辑和目的性的运动路线，以确保连贯的视觉观察。此外，现有模型在处理城市开放空间中的具身认知能力时表现出相对较差的能力，这表明城市三维空间中的具身认知能力尚未得到充分解决。

常用场景

经典使用场景

UrbanVideo-Bench 数据集被广泛应用于评估视频-大型语言模型（Video-LLMs）在开放城市3D空间中的具身认知能力。该数据集包含了1500个视频片段和5200个多项选择题，用于评估模型在记忆、感知、推理和导航方面的能力。这些视频片段由无人机在真实城市和模拟环境中收集，涵盖了复杂的城市场景和丰富的语义信息，为模型提供了连续的第一人称视觉观察数据。UrbanVideo-Bench 数据集的经典使用场景包括视频总结、事件问答和目标定位等。

解决学术问题

UrbanVideo-Bench 数据集解决了城市开放3D空间中具身认知能力的评估问题。现有的基准数据集通常只限于评估非具身第三人称视频片段，而 UrbanVideo-Bench 则提供了具身运动视频数据，用于评估模型在实际城市环境中的认知能力。此外，UrbanVideo-Bench 数据集还揭示了当前视频-大型语言模型在城市具身认知方面的局限性，为未来的城市应用提供了有价值的见解。

实际应用

UrbanVideo-Bench 数据集在实际应用中具有广泛的应用前景。例如，在城市导航系统中，该数据集可用于训练模型，使其能够理解和处理连续的第一人称视觉观察，从而实现更准确和智能的导航。此外，UrbanVideo-Bench 数据集还可以用于无人机监控和自动驾驶等领域，帮助模型更好地理解和适应城市环境。

数据集最近研究