DriveTrack

Name: DriveTrack
Creator: 麻省理工学院计算机科学与人工智能实验室
Published: 2023-12-15 12:06:52
License: 暂无描述

arXiv2023-12-15 更新2024-07-24 收录

下载链接：

https://drivetrack.csail.mit.edu/

下载链接

链接失效反馈

官方服务：

资源简介：

DriveTrack是由麻省理工学院计算机科学与人工智能实验室创建的一个针对真实世界视频中长距离关键点跟踪的新基准和数据生成框架。该数据集旨在解决现有跟踪器在真实世界视频中由于纹理和光照等视觉属性导致的跟踪精度问题。DriveTrack通过自动标注自动驾驶数据集中的点轨迹，构建了一个包含24小时视频、10亿点轨迹的数据集，其规模远超现有真实世界基准，与合成基准相当。该数据集不仅用于微调关键点跟踪器，提高其在真实场景中的准确性，还用于分析跟踪器对视觉瑕疵的敏感度，推动了关键点选择器的发展，以辅助跟踪器选择鲁棒的关键点。

DriveTrack is a novel benchmark and data generation framework for long-range keypoint tracking in real-world videos, created by the Computer Science and Artificial Intelligence Laboratory (CSAIL) at the Massachusetts Institute of Technology (MIT). This dataset aims to address the tracking accuracy issues of existing trackers in real-world videos caused by visual attributes such as texture and illumination. By automatically annotating point trajectories from autonomous driving datasets, DriveTrack constructs a dataset containing 24 hours of video and 1 billion point trajectories, whose scale far exceeds existing real-world benchmarks and is comparable to synthetic benchmarks. This dataset can not only be used to fine-tune keypoint trackers to improve their accuracy in real-world scenarios, but also to analyze the sensitivity of trackers to visual artifacts, promoting the development of keypoint selectors that assist trackers in selecting robust keypoints.

提供机构：

麻省理工学院计算机科学与人工智能实验室

创建时间：

2023-12-15

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，真实世界视频中的关键点长期追踪一直面临标注数据匮乏的挑战。DriveTrack通过创新性的数据生成框架，利用自动驾驶数据集中的多模态信息自动构建密集点轨迹标注。该方法整合时间戳对齐的LiDAR点云、三维边界框标注、相机位姿与方向等数据，通过坐标变换将每个时间点的点云根据目标物体的运动轨迹和自车运动进行投影，生成长达数十帧的精确三维点轨迹，再投影至图像空间形成二维标注。为处理点云稀疏性，采用最近邻插值或CompletionFormer等深度补全方法生成稠密深度图，进而估计遮挡状态，并通过多种过滤策略确保标注质量。

特点

DriveTrack作为首个大规模真实世界点追踪基准，其显著特点在于标注规模与真实场景覆盖的突破性结合。数据集包含来自Waymo开放数据集的24小时视频，生成10亿条点轨迹和840亿个标注点，规模达到现有真实世界基准的七个数量级，与合成数据集相当。其标注密度极高，平均每个视频包含约10万条轨迹，能够捕捉真实场景中复杂的视觉伪影，如光照变化、纹理噪声、运动模糊和遮挡。数据集同时提供深度图与物体掩码，支持多视角分析，为模型训练提供了前所未有的真实世界数据基础。

使用方法

该数据集主要应用于计算机视觉中的长期关键点追踪任务，遵循Track Any Point范式。研究人员可利用其大规模标注对现有追踪器进行微调，以提升模型在真实场景中的鲁棒性。具体使用时，可将数据集按场景划分为训练、验证和测试集，直接加载预生成的二维点轨迹、遮挡标注及深度信息。在模型训练中，可将点轨迹数据与对应视频帧输入，以监督学习方式优化追踪网络；在评估阶段，则使用标准指标如平均Jaccard、位置精度和遮挡准确率来衡量性能。此外，数据集还可用于分析关键点敏感性，为开发辅助性关键点选择器提供数据支撑。

背景与挑战

背景概述

DriveTrack是由麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）与Adobe Systems的研究团队于2023年共同提出的一个面向真实世界视频的长程关键点跟踪基准数据集。该数据集的创建源于当前先进跟踪器在真实场景中因纹理、光照变化等视觉伪影导致的性能下降问题，而现有合成数据集无法充分模拟这些复杂特征。DriveTrack通过利用自动驾驶数据集中的LiDAR点云、三维边界框标注与相机位姿，构建了一个自动化标注框架，生成了涵盖24小时视频、包含10亿个点轨迹的大规模标注，其规模与合成数据集相当，首次为真实世界视频提供了高密度、高保真的长程点跟踪标注，显著推动了自动驾驶、机器人视觉等领域的算法研究与应用部署。

当前挑战

DriveTrack致力于解决真实世界视频中长程关键点跟踪的领域挑战，其核心在于克服合成数据与真实场景之间的域差异，提升跟踪器在复杂光照、动态遮挡、运动模糊等视觉伪影下的鲁棒性。在构建过程中，研究团队面临多重技术挑战：其一，真实场景中LiDAR点云在相邻时间戳间缺乏一一对应关系，无法直接沿用合成数据的渲染跟踪方法；其二，需融合多模态数据（点云、边界框、相机位姿）并设计几何变换模型以实现精准的三维点投影与跟踪；其三，标注质量受限于手动标注边界框的噪声以及稀疏点云生成稠密深度图时的插值误差，需通过滤波策略与深度补全方法进行优化以保证标注一致性。

常用场景

经典使用场景

在自动驾驶视觉研究领域，长程关键点追踪是理解动态场景的核心任务。DriveTrack数据集通过融合激光雷达点云、三维边界框标注与相机位姿信息，为真实世界视频提供了密集且精确的点轨迹标注。其最经典的使用场景在于为关键点追踪模型提供大规模、高质量的微调数据，使模型能够适应真实环境中复杂的纹理变化、光照波动与遮挡干扰。例如，基于DriveTrack微调的TAPIR与PIPs++等模型在真实场景中的追踪准确率提升了4%至7%，显著弥合了合成数据训练模型与真实世界应用之间的性能鸿沟。

解决学术问题

长期以来，关键点追踪研究受限于真实世界标注数据的稀缺，模型大多在合成数据集上训练，难以应对真实场景中的视觉伪影。DriveTrack通过自动化标注框架，首次在真实世界视频中实现了与合成数据集相匹敌的标注规模与精度，解决了模型在真实场景中泛化能力不足的核心学术问题。该数据集使得研究者能够系统分析追踪器对光照、纹理等视觉属性的敏感性，并推动开发面向追踪任务的关键点选择器，从而在理论与方法层面深化对长程运动估计的理解。

衍生相关工作

DriveTrack的发布催生了一系列围绕真实世界长程追踪的衍生研究。基于其标注数据，研究者不仅优化了TAP-Net、TAPIR、PIPs++等主流追踪模型，还启发了对关键点选择机制的重新探索。例如，结合DriveTrack的误差分布分析，后续工作开始设计能够识别抗干扰关键点的选择器，以降低追踪器对视觉伪影的敏感性。同时，该数据集也为光流估计、运动结构恢复等传统任务提供了新的评估基准，推动了跨任务视觉表征学习的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集