Breakfast Action Dataset

github2023-09-03 更新2024-05-31 收录

下载链接：

https://github.com/cantonioupao/pytorch-human_action_recognition_breakfast_dataset-C3D_model_implementation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于视频中人类动作的识别，包含了多种早餐制作动作的视频数据，数据集经过预处理后，视频被转换为帧并根据48种动作进行分类。

This dataset is designed for the recognition of human actions in videos, encompassing a variety of breakfast preparation activities. The dataset has been preprocessed, with videos converted into frames and categorized according to 48 distinct actions.

创建时间：

2019-03-21

原始信息汇总

数据集概述

数据集名称

Breakfast Action Dataset

数据集来源

下载自Serre Lab，网址为http://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/

数据集结构

原始数据集结构

Breakfast ├── PO3 │ ├── webcam │ │ ├── cereals.avi │ │ ├── cereals.txt │ │ └── ... │ └── ... ├── PO4 │ ├── stereo │ │ ├── coffee.avi │ │ ├── coffee.txt │ │ └── ... │ └── ... └── PO5 │ ├── cam1 │ │ ├── pancake.avi │ │ ├── pancake.txt │ │ └── ... │ └── ...
预处理后数据集结构

break ├── stir_milk │ ├── PO3_webcam_milk_123_450 │ │ ├── 00001.jpg │ │ └── ... │ └── ... ├── stir_coffee │ ├── PO4_stereo_coffee_223_320 │ │ ├── 00001.jpg │ │ └── ... │ └── ... └── fryegg │ ├── PO5_cam1_pancake_1_230 │ │ ├── 00001.jpg │ │ └── ... │ └── ...

数据集使用情况

用于训练C3D模型，模型使用PyTorch实现。
数据集经过预处理和分割，用于训练、验证和测试，输出数据集大小为50GB。
训练结果显示，使用特定超参数集的框架整体准确率为30.26%。

实验环境

实验在配备NVIDIA TITAN X 12gb GPU的机器上进行。

训练结果

训练和验证的准确率及损失曲线如图所示：
- 100-epoch-breakfast.png
- tesnorboard epoch 100 results breakfast.png
随机视频的推理结果如图所示：
- pour_milk_inference.png

搜集汇总

数据集介绍

构建方式

Breakfast Action Dataset的构建方式主要通过从Serre Lab获取原始视频数据，并进行预处理。原始数据包括多个参与者在不同场景下的视频，每个视频对应特定的动作标签。预处理步骤包括将视频帧提取为图像，并根据动作类别进行分类存储。最终的数据集结构按动作类别组织，每个类别下包含多个视频帧序列，便于后续的模型训练和评估。

特点

Breakfast Action Dataset的主要特点在于其丰富的动作类别和高分辨率的视频帧。该数据集涵盖了48种不同的动作，且每个动作由多个视频片段组成，确保了数据的多样性和代表性。此外，数据集经过精细的预处理，视频帧按动作类别分类存储，便于模型直接使用。

使用方法

使用Breakfast Action Dataset时，首先需下载并配置数据集路径，确保数据集结构与模型要求一致。接着，用户可通过修改train.py文件中的超参数（如batch_size、epoch数等）来训练模型。训练过程中，可通过TensorBoard实时监控训练进度和结果。训练完成后，用户可使用inference.py对新视频进行动作识别，输出概率最高的动作类别。

背景与挑战

背景概述

Breakfast Action Dataset（早餐动作数据集）由Serre Lab于2014年创建，旨在解决视频中人类动作识别的复杂问题。该数据集包含了48种不同的动作类别，涵盖了日常生活中的多种行为，如烹饪、饮食等。其核心研究问题是如何在复杂场景中准确识别和分类人类动作，尤其是在多变的光照条件和不同的视角下。该数据集的发布对视频动作识别领域产生了深远影响，为研究人员提供了一个标准化的基准，推动了深度学习模型在该领域的应用和发展。

当前挑战

Breakfast Action Dataset在构建和应用过程中面临多项挑战。首先，数据集包含的动作类别多样且复杂，涵盖了从简单的搅拌到复杂的烹饪步骤，这要求模型具备高度的泛化能力。其次，视频数据的多变性，包括不同的光照条件、视角变化和背景噪声，增加了动作识别的难度。此外，数据集的预处理过程也面临挑战，如视频帧的提取、标注的准确性以及数据集的分割等。这些挑战共同构成了该数据集在实际应用中的主要障碍。

常用场景

经典使用场景

Breakfast Action Dataset 主要用于视频中人类动作识别的研究，特别是在早餐场景下的动作分类。该数据集包含了多种早餐制作过程中的动作视频，如搅拌牛奶、煮咖啡、煎蛋等，为研究人员提供了丰富的动作样本。通过使用该数据集，研究者可以训练和验证动作识别模型，特别是在复杂场景下的动作分类任务中表现出色。

实际应用

Breakfast Action Dataset 在实际应用中具有广泛的应用前景，特别是在智能家居、视频监控和机器人技术领域。例如，该数据集可以用于训练智能家居系统，使其能够识别和响应用户的早餐制作动作，从而提供个性化的服务。此外，在视频监控中，该数据集可以帮助识别异常行为，提升安全监控的效率。

衍生相关工作

基于 Breakfast Action Dataset，许多研究者开发了多种动作识别模型，如 C3D 模型，并在该数据集上进行了验证。这些模型不仅提升了动作识别的准确性，还推动了视频理解技术的发展。此外，该数据集还激发了其他相关研究，如多模态动作识别和跨场景动作迁移等，进一步扩展了动作识别的研究领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集