chengyenhsieh/TAO-Amodal

Name: chengyenhsieh/TAO-Amodal
Creator: chengyenhsieh
Published: 2024-06-11 18:27:15
License: 暂无描述

Hugging Face2024-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/chengyenhsieh/TAO-Amodal

下载链接

链接失效反馈

官方服务：

资源简介：

我们的数据集通过为完全不可见、出框和被遮挡的物体添加模态边界框注释，扩展了TAO数据集。这意味着TAO-Amodal还包括模态分割掩码（如上方的彩色叠加所示）。我们的数据集包含880个类别，旨在通过模态感知的任意物体跟踪（TAO-Amodal）范式，评估当前跟踪器在遮挡推理方面的能力。

Our dataset extends the TAO dataset by adding amodal bounding box annotations for fully invisible, out-of-frame, and occluded objects. This means that the TAO-Amodal dataset also includes amodal segmentation masks, as shown by the colored overlay above. Our dataset contains 880 categories, and is designed to evaluate the ability of current trackers in occlusion reasoning via the amodal-aware arbitrary object tracking (TAO-Amodal) paradigm.

提供机构：

chengyenhsieh

原始信息汇总

TAO-Amodal 数据集概述

数据集描述

TAO-Amodal 数据集是对 TAO 数据集的增强，增加了对完全不可见、出框和遮挡对象的非模态边界框标注。该数据集包含 880 个类别，旨在通过非模态感知（TAO-Amodal）评估当前跟踪器的遮挡推理能力。

数据下载

使用 git 下载： bash git lfs install git clone git@hf.co:datasets/chengyenhsieh/TAO-Amodal
使用 Python 下载： python from huggingface_hub import snapshot_download snapshot_download(repo_id="chengyenhsieh/TAO-Amodal")
解压所有视频：修改 dataset_root 并运行： bash python unzip_video.py

数据集结构

数据集结构如下： bash TAO-Amodal ├── frames │ └── train │ ├── ArgoVerse │ ├── BDD │ ├── Charades │ ├── HACS │ ├── LaSOT │ └── YFCC100M ├── amodal_annotations │ ├── train/validation/test.json │ ├── train_lvis_v1.json │ └── validation_lvis_v1.json ├── example_output │ └── prediction.json ├── BURST_annotations │ ├── train │ └── train_visibility.json │ ...

文件描述

文件名	描述
train/validation/test.json	正式标注文件，用于可视化。类别包括 lvis v0.5 和自由形式类别。
train_lvis_v1.json	用于训练 amodal-expander，将每个图像帧视为独立序列。类别与 lvis v1.0 对齐。
validation_lvis_v1.json	用于评估 amodal-expander。类别与 lvis v1.0 对齐。
prediction.json	amodal-expander 的示例输出 json。跟踪器预测应按此文件结构进行评估。
BURST_annotations/XXX.json	来自 BURST 数据集的模态掩码标注，带有我们的启发式可见性属性。提供这些文件以便于可视化。

标注和预测格式

标注文件格式与 TAO 类似，但有一些修改。

标注格式： bash { "info" : info, "images" : [image], "videos": [video], "tracks": [track], "annotations" : [annotation], "categories": [category], "licenses" : [license], } annotation: { "id": int, "image_id": int, "track_id": int, "bbox": [x,y,width,height], "area": float, "category_id": int, "video_id": int, "amodal_bbox": [x,y,width,height], "amodal_is_uncertain": bool, "visibility": float, (0.~1.0) }

预测格式： bash [{ "image_id" : int, "category_id" : int, "bbox" : [x,y,width,height], "score" : float, "track_id": int, "video_id": int }]

引用

@misc{hsieh2023tracking, title={Tracking Any Object Amodally}, author={Cheng-Yen Hsieh and Tarasha Khurana and Achal Dave and Deva Ramanan}, year={2023}, eprint={2312.12433}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

TAO-Amodal数据集是在TAO数据集的基础上，增加了对完全不可见、出界以及被遮挡对象的模态边界框注释。该数据集包含880个类别，旨在通过Tracking Any Object with Amodal perception（TAO-Amodal）的范式，评估当前跟踪器处理遮挡情况的能力。数据集的构建通过集成额外的模态分割掩码注释，并利用来自多个源的视频帧，如ArgoVerse、BDD、Charades、HACS、LaSOT和YFCC100M等，形成了全面的注释文件和视频帧集合。

特点

TAO-Amodal数据集的特点在于其包含了丰富的注释信息，不仅涵盖常规的可见对象，还特别关注了不可见或部分遮挡的对象。这些特点使其成为一个独特的测试平台，用于评估跟踪算法在处理复杂场景时的鲁棒性。数据集遵循MIT许可证，并提供了与lvis v0.5和lvis v1.0类别对齐的注释文件，以及专门为可视化设计的模态掩码注释。

使用方法

使用TAO-Amodal数据集时，用户需要同意特定的使用条款，包括仅用于非商业性质的研究和教育目的，并且不得分发数据集或其任何部分。数据集可以通过git或python脚本从HuggingFace Hub下载，并解压相应的视频文件。用户需根据提供的注释文件格式构建预测，并使用数据集提供的评估工具包进行性能评估。

背景与挑战

背景概述

TAO-Amodal数据集是由Cheng-Yen (Wesley) Hsieh等于2023年提出，旨在增强TAO数据集的功能，通过引入隐式边界框注释来跟踪完全不可见、出界和遮挡的物体。该数据集涵盖了880个类别，其核心研究问题是通过Tracking Any Object with Amodal perception (TAO-Amodal)范式评估当前跟踪器处理遮挡情境的能力。TAO-Amodal数据集的研究成果已在科学文献中发表，对计算机视觉领域产生了显著影响，特别是在物体跟踪和遮挡理解方面。

当前挑战

TAO-Amodal数据集在构建过程中遇到的挑战包括如何准确注释隐式边界框，以及如何在大量视频数据中保持注释的一致性和准确性。此外，该数据集在解决领域问题如物体跟踪的挑战上，面临如何提升跟踪算法在处理遮挡和出界物体时的鲁棒性和准确性。

常用场景

经典使用场景

在计算机视觉领域，TAO-Amodal数据集的典型应用场景在于评估追踪算法对于被遮挡、出界以及完全不可见目标的处理能力。该数据集通过提供模态分割掩码以及amodal边界框注释，使得研究者能够对当前追踪器在遮挡推理方面的性能进行深入分析。

衍生相关工作

基于TAO-Amodal数据集，研究者已经衍生出了一系列相关工作，如amodal-expander扩展模型，以及针对不同遮挡情况下的追踪算法优化研究，这些工作进一步推动了视觉追踪技术在理论与实践上的进步。

数据集最近研究