five

sty-yyj/ElysiumTrack-1M

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sty-yyj/ElysiumTrack-1M
下载链接
链接失效反馈
官方服务:
资源简介:
ElysiumTrack-1M数据集是一个百万规模的对象感知视频数据集,支持单目标跟踪(SOT)、基于语言表达的单目标跟踪(RSOT)和视频引用表达式生成(Video-REG)等任务。数据集的视频来源于WebVid-10M,数据集的使用仅限于学术用途,不支持商业用途。

The ElysiumTrack-1M dataset is a million-scale object perception video dataset that supports tasks such as Single Object Tracking (SOT), Referring Single Object Tracking (RSOT), and Video Referring Expression Generation (Video-REG). The dataset contains 1.27M trajectories and 1.27M expressions, with a total duration of 9.2 months. The videos are sourced from WebVid-10M and are intended for academic use only, not supported for commercial usage.
提供机构:
sty-yyj
原始信息汇总

ElysiumTrack-1M 数据集概述

数据集简介

ElysiumTrack-1M 是一个百万级对象感知视频数据集,支持以下任务:

  • 单目标跟踪 (SOT):通过参考目标在第一帧中的初始位置,预测目标在连续帧中的位置。
  • 参考单目标跟踪 (RSOT):基于给定的语言表达,在整个视频中识别和定位特定目标。该任务提供了更灵活的跟踪格式,并建立了语言与跟踪之间的有价值联系。
  • 视频参考表达生成 (Video - REG):给定视频中任意帧中目标的坐标,任务是预测目标的描述。与传统的 REG 任务不同,Video - REG 要求模型具有时间感知能力,因为目标在当前帧中的外观可能受到遮挡或运动模糊的影响,但在其他帧中可以识别。

数据统计

数据集 #轨迹 #表达式 时长
OTB15 51 0 16.4 分钟
VOT14 25 0 5.7 分钟
VOT16 60 0 11.9 分钟
VOT17 60 0 11.9 分钟
UAV20L 20 0 32.6 分钟
UAV123L 91 0 1.1 小时
GOT - 10K 10K 0 1.7 天
LaSOT 1.4K 1.4K 1.4 天
TrackingNet 30.6K 0 5.6 天
ElysiumTrack -1M 1.27M 1.27M 9.2 个月

结果

模型 任务 AUC P $P_{Norm}$
MiniGPT-v2 RSOT 65.4 70.1 67.4
Elysium RSOT 87.5 94.5 93.7
Elysium SOT 88.7 94.6 93.8

数据来源

视频来自 WebVid-10M,该数据集的详细描述可以在 Frozen in Time 中找到。

使用范围

数据集设计用于支持 SOT、RSOT 和 Video-REG 等任务。

使用限制

仅限学术使用,不支持商业用途。

引用

@misc{wang2024elysiumexploringobjectlevelperception, title={Elysium: Exploring Object-level Perception in Videos via MLLM}, author={Han Wang and Yongjie Ye and Yanjie Wang and Yuxiang Nie and Can Huang}, year={2024}, eprint={2403.16558}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2403.16558}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作