UrbanVideo-Bench

github2025-03-11 更新2025-03-15 收录

下载链接：

https://github.com/EmbodiedCity/UrbanVideo-Bench.code

下载链接

链接失效反馈

官方服务：

资源简介：

该基准测试旨在评估视频-大型语言模型（Video-LLMs）是否能够像人类一样自然地处理连续的第一人称视觉观察，实现回忆、感知、推理和导航。数据集生成过程包括四个步骤：视频策划、多选题生成、盲过滤和人工细化。

This benchmark is designed to evaluate whether Video-Large Language Models (Video-LLMs) can naturally handle sequential first-person visual observations in a human-like manner, enabling capabilities including recall, perception, reasoning, and navigation. The dataset generation pipeline consists of four core steps: video curation, multiple-choice question generation, blind filtering, and human refinement.

创建时间：

2025-03-08

原始信息汇总

UrbanVideo-Bench 数据集概述

数据集简介

UrbanVideo-Bench 是一个用于评估视频大型语言模型（Video-LLMs）是否能够像人类一样自然处理连续的第一人称视觉观察的数据集，旨在实现回忆、感知、推理和导航等功能。

数据集链接

Arxiv: https://arxiv.org/pdf/2503.06157
项目主页: https://embodiedcity.github.io/UrbanVideo-Bench/
数据集: https://huggingface.co/datasets/EmbodiedCity/UrbanVideo-Bench

数据集新闻

数据集已上传
数据集生成代码待完成
用于运行基准测试的代码待完成

数据集生成流程

数据集生成包括四个步骤：视频筛选、多项选择题生成、盲目过滤和人工精炼。数据集统计信息如图 b-f 所示。

UrbanVideo-Bench 数据集流程图

引用信息

若在研究中使用此项目，请引用以下论文：

@misc{zhao2025urbanvideobench, title={UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces}, author={Baining Zhao and Jianjie Fang and Zichao Dai and Ziyou Wang and Jirong Zha and Weichen Zhang and Chen Gao and Yue Wang and Jinqiang Cui and Xinlei Chen and Yong Li}, year={2025}, eprint={2503.06157}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.06157}, }

搜集汇总

数据集介绍

构建方式

UrbanVideo-Bench数据集的构建过程涉及四个主要步骤：视频筛选、多项选择题生成、盲目过滤以及人工精炼。首先，通过精心挑选的城市视频资料进行初步构建；其次，设计多项选择题以测试模型对视频内容的理解；然后，通过盲目过滤过程去除质量不高的样本；最后，经过人工精炼确保数据集的质量和准确性。

特点

该数据集的特点在于其专注于评估视频大型语言模型（Video-LLMs）对连续第一人称视觉观察的处理能力，旨在模拟人类在回忆、感知、推理和导航方面的自然行为。数据集统计详情如图所示，提供了丰富的视觉与语言信息，适合对视觉语言模型的智能体进行深入分析。

使用方法

使用UrbanVideo-Bench数据集时，用户可以从指定的Hugging Face数据集链接中获取数据。数据集包含了用于训练和评估视觉语言模型的必要组件。目前，虽然数据生成代码和模型基准测试的运行代码尚未完成，但用户可以参照项目页面和论文说明进行操作，以便在未来完成对模型的全面评估。

背景与挑战

背景概述

UrbanVideo-Bench数据集的创建旨在评估视频大规模语言模型（Video-LLMs）是否能够如人类般自然地处理连续的第一人称视觉观察，从而实现回忆、感知、推理和导航。该数据集由Baining Zhao等人于2025年设计并推出，依托于Embodied Intelligence的研究领域，主要研究人员来自于多个学术机构。该数据集的核心研究问题聚焦于视觉语言模型在处理城市空间视频数据时的表现，对Embodied Intelligence领域产生了显著的影响。

当前挑战

该数据集在构建过程中面临了多个挑战，其中包括如何确保视频数据的质量和多样性，以及如何生成适合评估视觉语言模型的多个-choice问题（MCQ）。此外，数据集的构建还包括了盲目过滤和人工精炼等步骤，以确保评估的公正性和准确性。在研究领域问题方面，数据集需要解决如何让模型更好地理解和处理城市环境中的复杂视觉信息，以及在动态场景中进行有效的推理和决策的挑战。

常用场景

经典使用场景

在当前人工智能领域，UrbanVideo-Bench数据集被广泛应用于评估视频大规模语言模型（Video-LLMs）的性能。该数据集的设计初衷是检验Video-LLMs是否能像人类一样自然处理连续的第一人称视觉观察，从而实现回忆、感知、推理和导航等能力。

实际应用

在实际应用中，UrbanVideo-Bench数据集有助于推动视觉语言模型在智能导航、智能监控、智能交互等领域的应用。这些应用在城市管理和智能城市建设中具有重要意义，有望带来显著的社会和经济效益。

衍生相关工作

基于UrbanVideo-Bench数据集，研究者已经开展了一系列相关工作，包括视频理解、视觉问答、场景推理等。这些研究进一步拓展了数据集的应用范围，为城市空间智能处理提供了新的方法和思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集