ElysiumTrack-1M

Hugging Face2024-07-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/sty-yyj/ElysiumTrack-1M

下载链接

链接失效反馈

官方服务：

资源简介：

ElysiumTrack-1M数据集是一个百万级对象感知视频数据集，支持单对象跟踪（SOT）、引用单对象跟踪（RSOT）和视频引用表达生成（Video-REG）任务。该数据集包含1.27M条轨迹和1.27M条表达，总时长为9.2个月。视频来源自WebVid-10M，主要用于学术用途，不适用于商业用途。

创建时间：

2024-07-14

原始信息汇总

数据集卡片

ElysiumTrack-1M 数据集是一个百万级对象感知视频数据集。它支持以下任务：

单目标跟踪 (SOT)：通过参考目标在第一帧中的初始位置，预测目标在连续帧中的位置。
参考单目标跟踪 (RSOT)：根据给定的语言表达，在整个视频中识别和定位特定目标。此任务提供了更灵活的跟踪格式，并建立了语言与跟踪之间的有价值联系。
视频参考表达生成 (Video - REG)：给定视频中任意帧的目标坐标，任务是预测目标的描述。与传统的 REG 任务不同，Video - REG 要求模型具有时间感知能力，因为目标在当前帧中的外观可能受到遮挡或运动模糊的影响，但可以在其他帧中识别。

数据统计

数据集	#轨迹	#表达式	时长
OTB15	51	0	16.4 分钟
VOT14	25	0	5.7 分钟
VOT16	60	0	11.9 分钟
VOT17	60	0	11.9 分钟
UAV20L	20	0	32.6 分钟
UAV123L	91	0	1.1 小时
GOT - 10K	10K	0	1.7 天
LaSOT	1.4K	1.4K	1.4 天
TrackingNet	30.6K	0	5.6 天
ElysiumTrack -1M	1.27M	1.27M	9.2 个月

结果

模型	任务	AUC	P	$P_{Norm}$
MiniGPT-v2	RSOT	65.4	70.1	67.4
Elysium	RSOT	87.5	94.5	93.7
Elysium	SOT	88.7	94.6	93.8

数据来源

视频来自 WebVid-10M，该数据集的详细描述可以在 Frozen in Time 中找到。

直接使用

数据旨在支持 SOT、RSOT 和 Video-REG 等任务。

超出范围的使用

仅限学术使用，不支持商业用途。

搜集汇总

数据集介绍

构建方式

ElysiumTrack-1M数据集是一个百万规模的目标感知视频数据集，其构建基于WebVid-10M视频库。该数据集通过从WebVid-10M中提取视频片段，并结合目标跟踪任务的需求，标注了每个视频中的目标轨迹和语言表达。数据集的构建过程包括目标轨迹的标注、语言表达的生成以及视频帧的时序对齐，确保了数据的高质量和多样性。

特点

ElysiumTrack-1M数据集的特点在于其规模庞大，包含127万条目标轨迹和相应的语言表达，覆盖了长达9.2个月的视频时长。该数据集支持单目标跟踪（SOT）、基于语言表达的单目标跟踪（RSOT）以及视频指代表达生成（Video-REG）等多种任务。其独特的任务设计不仅增强了模型的时空感知能力，还为语言与视觉跟踪的结合提供了新的研究视角。

使用方法

ElysiumTrack-1M数据集的使用方法主要围绕其支持的三大任务展开。对于单目标跟踪（SOT）任务，用户可以通过初始帧的目标位置预测后续帧中的目标位置。基于语言表达的单目标跟踪（RSOT）任务则要求模型根据给定的语言描述在视频中定位目标。视频指代表达生成（Video-REG）任务则需要在给定目标坐标的情况下生成目标的描述。用户可以通过加载数据集并调用相应的任务接口进行模型训练和评估。

背景与挑战

背景概述

ElysiumTrack-1M数据集由Han Wang等人于2024年提出，是一个百万规模的目标感知视频数据集，旨在推动视觉问答领域的深入研究。该数据集支持单目标跟踪（SOT）、基于语言表达的单目标跟踪（RSOT）以及视频指代表达生成（Video-REG）等任务，为语言与视觉跟踪的结合提供了重要平台。其数据来源于WebVid-10M，涵盖了丰富的视频内容，总时长达到9.2个月，轨迹数量高达127万条。ElysiumTrack-1M的发布不仅填补了大规模视频数据集在语言与视觉结合任务中的空白，还为多模态学习模型的发展提供了重要支持。

当前挑战

ElysiumTrack-1M数据集在解决视觉问答领域问题时面临多重挑战。首先，单目标跟踪任务要求模型在连续帧中精确定位目标，而目标可能因遮挡、运动模糊等因素发生显著变化，这对模型的鲁棒性提出了极高要求。其次，基于语言表达的单目标跟踪任务需要模型理解自然语言描述并将其与视觉信息对齐，这对多模态融合能力提出了挑战。此外，视频指代表达生成任务要求模型具备时间感知能力，能够结合多帧信息生成准确的描述。在数据构建过程中，如何从海量视频中提取高质量的目标轨迹并生成多样化的语言表达，也是数据集构建者面临的主要技术难题。

常用场景

经典使用场景

ElysiumTrack-1M数据集在计算机视觉领域中被广泛用于单目标跟踪（SOT）和基于语言表达的单目标跟踪（RSOT）任务。通过提供百万级的视频轨迹和语言表达，该数据集为模型训练和评估提供了丰富的资源，尤其是在处理复杂场景下的目标跟踪问题时表现出色。其大规模的数据量和多样化的任务设置，使得研究者能够在真实世界场景中验证和改进跟踪算法的鲁棒性和准确性。

解决学术问题

ElysiumTrack-1M数据集解决了目标跟踪领域中的多个关键问题，尤其是在复杂场景下的目标定位和跟踪。通过引入基于语言表达的单目标跟踪（RSOT）任务，该数据集为语言与视觉信息的融合提供了新的研究方向，推动了多模态学习的发展。此外，视频描述生成任务（Video-REG）要求模型具备时间感知能力，进一步提升了模型在动态场景中的表现。这些任务的设置不仅丰富了目标跟踪的研究内容，还为相关领域的算法优化提供了新的挑战和机遇。

衍生相关工作

ElysiumTrack-1M数据集已经衍生出多项经典研究工作，尤其是在多模态学习和目标跟踪领域。例如，MiniGPT-v2和Elysium等模型在该数据集上的表现显著提升了基于语言表达的单目标跟踪（RSOT）任务的性能。这些工作不仅验证了数据集的有效性，还为后续研究提供了重要的参考。此外，该数据集还推动了视频描述生成任务（Video-REG）的发展，使得模型在处理动态场景时能够更好地理解目标的时间变化特征。这些衍生工作进一步拓展了数据集的应用范围和研究深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集