TrainingDataPro/dogs-video-object-tracking-dataset

Name: TrainingDataPro/dogs-video-object-tracking-dataset
Creator: TrainingDataPro
Published: 2024-04-25 10:41:08
License: 暂无描述

Hugging Face2024-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TrainingDataPro/dogs-video-object-tracking-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从街头有狗的视频中提取的帧。每个帧都附有专门跟踪图像中狗的边界框。数据集提供了三个文件夹，分别包含来自视频的帧、图像的可视化数据标签、每个帧的ID和路径的CSV文件以及包含原始帧边界框坐标的XML注释文件。该数据集为推进计算机视觉任务提供了宝贵的资源，能够开发更准确和有效的解决方案，以监控和理解城市环境中的狗行为。

提供机构：

TrainingDataPro

原始信息汇总

数据集概述

语言和许可

语言：英语
许可：CC BY-NC-ND 4.0

任务类别

图像到图像
目标检测

数据集信息

配置 video_01

特征
- id: int32
- name: string
- image: image
- mask: image
- shapes:
  - track_id: uint32
  - label: class_label (names: {0: dog})
  - type: string
  - points: sequence of float32
  - rotation: float32
  - occluded: uint8
  - attributes:
    - name: string
    - text: string
拆分
- train:
  - 字节数: 14990
  - 样本数: 52
下载大小: 313328015 字节
数据集大小: 14990 字节

配置 video_02

特征
- id: int32
- name: string
- image: image
- mask: image
- shapes:
  - track_id: uint32
  - label: class_label (names: {0: dog})
  - type: string
  - points: sequence of float32
  - rotation: float32
  - occluded: uint8
  - attributes:
    - name: string
    - text: string
拆分
- train:
  - 字节数: 19600
  - 样本数: 58
下载大小: 67354761 字节
数据集大小: 19600 字节

配置 video_03

特征
- id: int32
- name: string
- image: image
- mask: image
- shapes:
  - track_id: uint32
  - label: class_label (names: {0: dog})
  - type: string
  - points: sequence of float32
  - rotation: float32
  - occluded: uint8
  - attributes:
    - name: string
    - text: string
拆分
- train:
  - 字节数: 14126
  - 样本数: 49
下载大小: 148412090 字节
数据集大小: 14126 字节

搜集汇总

数据集介绍

构建方式

该数据集源自对城市街道环境中犬类活动的视频片段进行系统性帧提取与标注。具体而言，从三个不同场景的视频中抽取出共计159帧图像，每一帧均经过精细的边界框标注，以唯一追踪标识符（track_id）关联每一只犬类目标。标注信息以XML格式存储，包含边界框坐标、旋转角度、遮挡状态及附加属性，同时提供对应的可视化掩码图像，形成了结构化的视频目标追踪数据集。

特点

数据集聚焦于城市开放空间中犬类目标的动态追踪，具有鲜明的领域针对性。其核心特点在于每帧图像均配备精确的边界框与追踪ID，支持多目标跟踪任务的训练与评估。此外，数据涵盖了不同遮挡程度与姿态变化的样本，增强了模型在复杂场景下的鲁棒性。数据集以视频片段为单元组织，便于时序信息的利用与动态行为分析。

使用方法

使用者可通过HuggingFace Datasets库加载该数据集，选择特定视频配置（如video_01）以获取图像、掩码及形状标注。训练集已预先划分，可直接用于目标检测与追踪模型的训练。标注中的track_id字段支持跨帧关联同一目标，适用于多目标追踪算法的开发。数据集亦提供可视化边界框图像，便于快速验证标注质量与模型输出。

背景与挑战

背景概述

在计算机视觉领域，目标跟踪与检测技术是智能监控、行为分析及城市管理中的核心任务。TrainingDataPro/dogs-video-object-tracking-dataset数据集由Unidata团队于近年创建，专注于城市环境中犬类目标的视频帧级标注。该数据集从街头拍摄的视频中提取连续帧，每一帧均提供精确的边界框标注，旨在跟踪犬类的运动轨迹与行为模式。其核心研究问题在于提升复杂城市背景下对动态、非刚性目标（如宠物犬与流浪犬）的检测与跟踪精度。该数据集为动物行为监测、智能安防及智慧城市开发提供了标准化的训练资源，尤其推动了多目标跟踪算法在真实场景下的鲁棒性评估与优化。

当前挑战

该数据集面临的核心挑战包括：1）领域问题层面，城市环境中犬类目标存在尺度多变、遮挡频繁、光照条件复杂及背景杂乱等困难，传统检测与跟踪算法难以同时兼顾精度与实时性，尤其需解决多目标交叉运动时的身份保持与重识别问题。2）构建过程层面，视频帧的密集标注需平衡人力成本与标注一致性，边界框在连续帧中的平滑过渡与遮挡状态（occluded字段）的准确标记是技术难点；此外，数据集仅包含三个视频片段，样本规模有限，可能限制模型对多样化场景（如不同犬种、运动速度及街道布局）的泛化能力，且缺乏多视角与夜间数据，增加了实际部署时的鲁棒性挑战。

常用场景

经典使用场景

在计算机视觉领域，该数据集专为多目标跟踪与检测任务而设计，尤其聚焦于城市环境中犬类的动态行为分析。其核心应用在于提供带有精确边界框标注的视频帧序列，使研究者能够训练和评估基于深度学习的运动追踪模型，如SORT、DeepSORT或Transformer-based追踪器。数据集覆盖了街道场景下犬只的遮挡、姿态变化及多目标交互等复杂情况，为开发鲁棒的视觉追踪算法提供了高保真的训练与测试基准。

解决学术问题

该数据集有效填补了针对动物行为视觉理解的研究空白，解决了城市开放场景中犬类目标检测与长期追踪的学术难题。传统数据集多聚焦行人或车辆，缺乏对非刚性动态目标（如宠物）的精细化标注。此数据集通过提供包含遮挡标注、旋转角度和轨迹ID的逐帧注释，助力研究者攻克目标重识别、遮挡恢复及轨迹平滑等关键挑战，推动了生物启发式视觉感知与动物行为量化分析的理论发展。

衍生相关工作

围绕该数据集已衍生出多项经典工作，包括基于YOLOv5与DeepSORT的犬类多目标追踪框架，以及引入注意力机制的Transformer模型用于处理遮挡场景下的轨迹预测。相关研究还探索了将语义分割与运动追踪结合的端到端架构，提出轻量化网络以适应边缘设备部署。这些工作不仅促进了宠物行为识别领域的模型创新，也为跨物种视觉追踪任务提供了可迁移的基线方法与评估范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集