CoVLA Dataset

Name: CoVLA Dataset
Creator: 图灵公司
Published: 2024-08-19 17:53:49
License: 暂无描述

arXiv2024-08-19 更新2024-08-23 收录

下载链接：

https://github.com/turingmotors/openlenda/releases/tag/v0.1.0

下载链接

链接失效反馈

官方服务：

资源简介：

CoVLA数据集由图灵公司开发，是一个针对自动驾驶的综合性数据集，包含超过10,000个真实驾驶视频片段，总计超过80小时。该数据集通过自动数据处理和字幕生成管道，结合车辆传感器数据，生成详细的自然语言描述和准确的驾驶轨迹。数据集的创建过程包括从多个传感器收集数据，使用Kalman滤波器估计轨迹，并通过自动字幕生成增强描述的丰富性。CoVLA数据集主要应用于自动驾驶领域，旨在通过提供丰富的视觉、语言和动作数据，支持开发更安全、可靠的自动驾驶系统。

The CoVLA dataset, developed by Turing Company, is a comprehensive dataset targeted at autonomous driving applications. It encompasses over 10,000 real-world driving video clips, with a total duration of more than 80 hours. Leveraging automated data processing and caption generation pipelines in combination with vehicle sensor data, this dataset generates detailed natural language descriptions and precise driving trajectories. The dataset creation process involves collecting data from multiple sensors, estimating driving trajectories via Kalman filters, and enhancing the richness of descriptions through automatic caption generation. Primarily applied in the autonomous driving domain, the CoVLA dataset is designed to support the development of safer and more reliable autonomous driving systems by providing rich visual, linguistic, and motion data.

提供机构：

图灵公司

创建时间：

2024-08-19

搜集汇总

数据集介绍

构建方式

CoVLA数据集的构建采用了一种新颖的可扩展方法，结合了自动数据处理和字幕生成流程，以生成精确的驾驶轨迹和详细的自然语言描述。该数据集利用原始车内传感器数据，包括前向摄像头、CAN总线、GNSS和IMU数据，这些数据在东京及其周边地区收集，涵盖了不同的驾驶环境和时间。通过自动标签和字幕生成方法，CoVLA数据集实现了大规模和丰富的注释数据，包括10,000个真实世界驾驶场景的视频片段，总时长超过80小时，每个30秒的场景都包含了精确的驾驶路径和详细的自然语言描述。

特点

CoVLA数据集的特点在于其规模和注释的丰富性。它包含了超过80小时的驾驶视频，每个视频片段都有精确的轨迹和自然语言描述。此外，数据集通过自动化的方式生成字幕，减少了人工注释的繁琐工作，提高了效率。CoVLA数据集的多样性也是其一大特点，涵盖了从城市中心到复杂的高速公路交汇处，再到狭窄的住宅街道和山区蜿蜒道路等多种驾驶场景，以及不同的天气条件和时间。

使用方法

CoVLA数据集的使用方法包括两个方面：一是训练和评估视觉-语言-动作（VLA）模型，二是开发CoVLA-Agent模型。VLA模型可以利用CoVLA数据集来训练，以理解和预测驾驶环境，生成驾驶场景描述，并预测车辆的未来轨迹。CoVLA-Agent模型是基于CoVLA数据集开发的，用于端到端的自驾驾驶。该模型利用了预训练的语言模型和视觉编码器，以及车辆的速度作为输入，以生成连贯的语言和动作输出，从而实现更可靠的自驾驾驶。

背景与挑战

背景概述

自动驾驶技术在应对复杂和不可预测的驾驶环境方面面临着重大挑战。为了解决这一难题，CoVLA数据集应运而生，该数据集由Turing Inc.等研究机构于2024年创建。CoVLA数据集是一个大规模的自动驾驶数据集，包含了超过80小时的驾驶视频，并配有详细的自然语言描述和驾驶动作。该数据集的创建旨在解决自动驾驶领域中的“长尾”问题，即自动驾驶车辆在处理罕见和复杂情况时的困难。CoVLA数据集通过自动化的数据采集和标注方法，提供了丰富的驾驶场景和驾驶动作信息，为自动驾驶研究提供了重要的数据支持。

当前挑战

CoVLA数据集面临着一些挑战。首先，现有的自动驾驶数据集在规模和标注的丰富程度上往往不足，难以满足训练和评估强大VLA模型的需求。其次，自然语言的标注通常需要大量的人工工作，成本高昂且效率低下。为了克服这些挑战，CoVLA数据集采用了一种可扩展的自动标注方法，通过传感器融合和自动生成文本描述来准确估计轨迹。此外，CoVLA数据集还采用了预训练的VLM模型来增强文本描述的丰富性和信息性。然而，自动标注方法仍然存在一些局限性，例如对本地标志的识别和对特定文化环境的理解等方面。未来研究需要进一步改进对象检测算法和上下文感知的文本描述模型，以提高数据集的质量和可靠性。

常用场景

经典使用场景

CoVLA数据集为自动驾驶领域提供了一个综合性的数据资源，其独特的10,000个视频片段、逐帧语言描述以及未来轨迹行动，为视觉、语言和行动的多模态大型语言模型（MLLMs）提供了丰富的训练数据。该数据集的主要用途之一是训练和评估能够在各种驾驶场景中处理视觉、语言和行动的自动驾驶模型，从而推动自动驾驶技术的发展。

衍生相关工作

CoVLA数据集的推出促进了相关领域的研究，衍生出了许多经典的工作。例如，基于CoVLA数据集，研究人员开发了一种名为CoVLA-Agent的VLA模型，该模型能够在自动驾驶中实现轨迹预测和交通场景描述生成。此外，CoVLA数据集还为其他自动驾驶相关的研究提供了数据支持，如3D目标检测、轨迹预测和行为规划等。

数据集最近研究