Kinect视频数据集

github2016-04-26 更新2024-05-31 收录

下载链接：

https://github.com/mosluo/Kinect_Dataset_Builder

下载链接

链接失效反馈

官方服务：

资源简介：

Kinect视频数据集是通过使用Kinect传感器2.0记录的图像和视频数据集，可以用于构建单视图或多视图数据集。数据集包括RGB、深度、红外等多种类型的图像，并可以通过提供的程序进行图像注册、边界框标注等处理，适用于计算机视觉中的活动识别等问题。

The Kinect Video Dataset is an image and video dataset captured using the Kinect Sensor 2.0, which can be used to construct single-view or multi-view datasets. The dataset includes various types of image modalities such as RGB, depth, and infrared. It can be processed with the provided programs for operations like image registration and bounding box annotation, and is applicable to tasks such as activity recognition in computer vision.

创建时间：

2016-04-26

原始信息汇总

数据集概述

数据集构建工具

Kinect_Dataset_Builder 是一个用于构建Kinect视频数据集或Kinect多视角视频数据集的工具集，使用Kinect传感器2.0。该工具集包含以下五个程序：

FroggyNect：Kinect记录器，用于实时监控和存储RGB、深度、红外数据及骨骼数据。
MultiViewAligner：用于同步多个视角的视频数据。
ImagesRegistrater：包含两个子程序，用于图像注册，解决RGB图像与其他类型图像之间的视角差异。
BoundingBoxer：用于在RGB图像中绘制人物的边界框。
AnnotationProducer：将边界框文本文件转换为Matlab定义的.mat文件。

数据集构建流程

单视角数据集构建

使用 FroggyNect 记录各种源图像（RGB、深度、红外等）。
使用 ImagesRegistrater 进行图像注册，解决分辨率差异。
使用 BoundingBoxer 获取图像中人物的边界框。
使用 AnnotationProducer 将边界框文本转换为.mat文件。

多视角数据集构建

设置多个Kinect传感器于不同视角并开始记录。
使用 MultiViewAligner 同步不同视角的视频数据。
对每个视角应用 ImagesRegistrater、BoundingBoxer 和 AnnotationProducer，如同单视角数据集构建流程。

程序详细功能

FroggyNect

实时监控和显示RGB、深度和骨骼图像。
实时存储RGB、深度、红外数据及骨骼数据。

MultiViewAligner

通过配置文本文件同步多个视角的视频数据。

ImagesRegistrater

使用 GetRegisParams 获取图像注册参数。
使用 RegisProgs 进行图像注册。

BoundingBoxer

在RGB图像中绘制人物的边界框。
提供多种操作模式，如添加、删除和浏览边界框。

AnnotationProducer

将边界框文本文件转换为.mat文件。

搜集汇总

数据集介绍

构建方式

Kinect视频数据集的构建涉及使用Kinect传感器2.0采集多种来源（RGB、深度、红外等）的图像。通过FroggyNect程序进行实时监控与录制，随后利用ImagesRegistrater程序进行图像配准，解决不同图像源之间的视角差异问题。接着，BoundingBoxer程序用于在图像中绘制人物边界框，并通过AnnotationProducer将文本格式的边界框信息转换为Matlab的.mat文件格式，以便于后续的计算机视觉问题训练与测试。

特点

该数据集的特点在于其多视角构建能力，支持单视角和多视角视频数据的同步采集与处理。通过MultiViewAligner程序实现多视角视频的对齐，确保不同视角的视频帧数一致。数据集提供了多种图像源和相应的骨骼数据，支持活动识别等计算机视觉研究。此外，数据集构建过程中考虑了图像配准，确保了不同图像源之间的准确对应。

使用方法

使用该数据集时，首先需要通过FroggyNect程序采集数据，然后使用ImagesRegistrater进行图像配准，BoundingBoxer绘制边界框，最后通过AnnotationProducer生成.mat格式的标注文件。对于多视角数据集，还需使用MultiViewAligner进行视频同步处理。各程序均提供了详细的操作界面和参数配置，用户可根据实际需求调整参数和路径，以适应不同的研究场景。

背景与挑战

背景概述

Kinect视频数据集是一款利用Kinect传感器2.0构建的专用数据集构建工具库，旨在为计算机视觉领域中的活动识别等任务提供高质量的多视角视频数据。该数据集的创建始于对多视角视频数据集的需求，由张振华等研究人员开发，并于2016年发布。其核心研究问题是如何通过多个Kinect传感器同步捕获并处理视频数据，以实现对人物活动的准确捕捉和识别。该数据集在学术界产生了广泛的影响，为相关领域的研究提供了重要的数据支持。

当前挑战

在构建该数据集的过程中，研究人员面临了多个挑战。首先，确保多个Kinect传感器在不同视角下同步记录视频是一个技术难题。其次，由于不同传感器产生的图像分辨率不同，需要进行图像配准以消除视差。此外，对视频中的人物进行精确的边界框标注也是一项挑战，尤其是在动态场景中。最后，将标注信息转换为适合不同研究需求的格式，如MAT文件，也是数据集构建中的一项挑战。

常用场景

经典使用场景

Kinect视频数据集之构建，旨在通过一系列程序，实现单视角或多视角下Kinect传感器所采集数据的整合与同步。该数据集的经典使用场景在于，通过程序如FroggyNect进行实时监控与录制，进而利用ImagesRegistrater进行图像配准，BoundingBoxer进行人物边界框标注，最终通过AnnotationProducer生成.mat格式标注文件，以供计算机视觉领域中的活动识别研究使用。

衍生相关工作

基于该数据集，研究者们已经衍生出一系列相关工作，包括但不限于多视角视频数据集的构建方法、活动识别算法的开发与评估、以及人机交互界面的设计与实现，进一步推动了计算机视觉及相关领域的研究进展。

数据集最近研究