Robusto-1 Dataset

Name: Robusto-1 Dataset
Creator: Artificio, Universidad de Ingeneria y Tecnologia (UTEC)
Published: 2025-03-11 01:50:04
License: 暂无描述

arXiv2025-03-11 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07587v1

下载链接

链接失效反馈

官方服务：

资源简介：

Robusto-1数据集是由Artificio和UTEC大学合作创建的，包含来自秘鲁的驾驶场景视频。该数据集选用了285段视频，并采样出200个5秒钟的视频片段用于构建数据集，另外7段视频用于初步的VQA分析。这些视频展示了具有挑战性的驾驶环境，如激烈的驾驶行为、高交通指数和大量罕见街道物体。数据集通过提出15个问题来评估人类与视觉语言模型在视觉问题回答任务上的认知对齐程度，包括变量问题、选择题和反事实假设问题。该数据集旨在推动自动驾驶系统在非常规场景下的性能评估，特别是在面临预期之外情况时的表现。

The Robusto-1 dataset was co-created by Artificio and UTEC University, containing driving scenario videos from Peru. It selects 285 video segments, from which 200 5-second video clips are sampled to construct the dataset, while another 7 videos are used for preliminary VQA analysis. These videos showcase challenging driving environments, such as aggressive driving behaviors, high traffic density, and a large number of rare street objects. The dataset proposes 15 questions to evaluate the cognitive alignment between humans and vision-language models on the visual question answering (VQA) task, including variable questions, multiple-choice questions, and counterfactual hypothetical questions. This dataset aims to promote the performance evaluation of autonomous driving systems in unconventional scenarios, especially their performance when facing unexpected situations.

提供机构：

Artificio, Universidad de Ingeneria y Tecnologia (UTEC)

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

Robusto-1数据集的构建方式独具匠心。该数据集由来自秘鲁的行车记录仪视频数据组成，秘鲁是全球驾驶风格最为激烈、交通指数最高、奇异物与非奇异物比例最高的国家之一。从这些视频中，研究者选取了200个5秒钟的片段，并针对每个片段设计了15个问题，这些问题分为三个主要类别：变量问题、多项选择题和反事实/假设性问题。变量问题基于视频的元数据，多项选择题涵盖了广泛的主题，而反事实/假设性问题则要求高级推理。这些问题旨在测试人类和视觉语言模型（VLMs）在驾驶场景中的认知水平，并通过系统神经科学中常用的表征相似性分析（RSA）方法进行比较。

使用方法

Robusto-1数据集的使用方法涉及对人类和VLMs进行视觉问答（VQA）测试。研究者首先将视频片段展示给人类参与者，并收集他们的回答。随后，相同的问题被提交给VLMs，收集它们的回答。为了比较人类和VLMs的回答，研究者使用了RSA框架，通过将每个系统的答案转换为向量并计算这些向量之间的相关性来创建表征相似性矩阵。此外，还计算了每个系统的答案与所有答案的中位数之间的L2距离，以及使用主成分分析（PCA）将答案在二维平面上可视化。这些分析方法有助于研究者了解人类和VLMs在回答不同类型问题时的相似性和差异性，从而为自动驾驶系统的设计和评估提供有价值的信息。

背景与挑战

背景概述

随着多模态基础模型开始在实际的自驾车上进行实验性部署，我们不禁要问，在特定驾驶情况下，这些系统与人类的行为有何相似之处，尤其是在分布外的情况下？为了研究这个问题，我们创建了Robusto-1数据集，该数据集使用了来自秘鲁的行车记录仪视频数据，秘鲁是世界上“最差”（侵略性）的驾驶者之一，交通指数高，奇怪与非奇怪街道物体的比例高，可能在训练中从未见过。特别是，为了初步测试基础视觉语言模型（VLMs）与人类在驾驶认知水平上的比较，我们从边界框、分割图、占用图或轨迹估计转向多模态视觉问答（VQA），通过系统神经科学中一种流行的方法——表征相似性分析（RSA），比较人类和机器的回答。根据我们提出的问题类型和这些系统给出的答案，我们将展示在哪些情况下VLMs和人类会收敛或发散，从而探索它们的认知一致性。我们发现，这种一致性程度会根据对每种系统（人类与VLMs）提出的问题类型而有显著变化，突显出它们之间的一致性差距。

当前挑战

Robusto-1数据集旨在解决自动驾驶领域的一个关键问题，即如何评估自动驾驶系统在分布外视觉场景中的泛化能力。该数据集面临的挑战包括：1)在秘鲁这种具有高度侵略性驾驶者、高交通指数和大量奇特街道物体的环境中，自动驾驶系统如何应对？2)如何通过多模态VQA比较人类和VLMs在驾驶场景中的认知一致性？3)如何利用RSA框架研究人类和VLMs在自动驾驶场景中的认知一致性？这些挑战对于推动自动驾驶技术的发展具有重要意义，因为它们有助于评估自动驾驶系统在实际驾驶环境中的表现，并探索人类与机器在认知水平上的差异。

常用场景

经典使用场景

Robusto-1数据集的创建旨在探索在真实世界中，多模态基础模型（VLMs）与人类驾驶员在自动驾驶车辆中的认知一致性。该数据集使用来自秘鲁的行车记录仪视频数据，秘鲁以其激进的驾驶行为、高交通指数和独特的道路环境而闻名。通过对VLMs和人类在视觉问答（VQA）任务中的表现进行比较，研究旨在了解这些系统在面对未见过的情况时的泛化能力。

解决学术问题

Robusto-1数据集解决了自动驾驶汽车在决策阶段如何应对真实世界中的意外情况的问题。它通过视觉问答任务来比较人类和机器的认知一致性，使用系统神经科学中的表征相似性分析（RSA）方法来评估两者的回答。这有助于揭示自动驾驶汽车在感知、决策和控制方面的局限性，并为未来的研究和开发提供指导。

实际应用

Robusto-1数据集的实际应用场景包括自动驾驶汽车的开发和测试，以及评估多模态基础模型在复杂和未见过的情况下的表现。它可以帮助研究人员和工程师改进自动驾驶系统的感知和决策算法，使其在真实世界的驾驶环境中更加可靠和安全。

数据集最近研究