Breakfast Action Dataset
收藏github2023-09-03 更新2024-05-31 收录
下载链接:
https://github.com/cantonioupao/pytorch-human_action_recognition_breakfast_dataset-C3D_model_implementation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于视频中人类动作的识别,包含了多种早餐制作动作的视频数据,数据集经过预处理后,视频被转换为帧并根据48种动作进行分类。
This dataset is designed for the recognition of human actions in videos, encompassing a variety of breakfast preparation activities. The dataset has been preprocessed, with videos converted into frames and categorized according to 48 distinct actions.
创建时间:
2019-03-21
原始信息汇总
数据集概述
数据集名称
- Breakfast Action Dataset
数据集来源
数据集结构
-
原始数据集结构
Breakfast ├── PO3 │ ├── webcam │ │ ├── cereals.avi │ │ ├── cereals.txt │ │ └── ... │ └── ... ├── PO4 │ ├── stereo │ │ ├── coffee.avi │ │ ├── coffee.txt │ │ └── ... │ └── ... └── PO5 │ ├── cam1 │ │ ├── pancake.avi │ │ ├── pancake.txt │ │ └── ... │ └── ...
-
预处理后数据集结构
break ├── stir_milk │ ├── PO3_webcam_milk_123_450 │ │ ├── 00001.jpg │ │ └── ... │ └── ... ├── stir_coffee │ ├── PO4_stereo_coffee_223_320 │ │ ├── 00001.jpg │ │ └── ... │ └── ... └── fryegg │ ├── PO5_cam1_pancake_1_230 │ │ ├── 00001.jpg │ │ └── ... │ └── ...
数据集使用情况
- 用于训练C3D模型,模型使用PyTorch实现。
- 数据集经过预处理和分割,用于训练、验证和测试,输出数据集大小为50GB。
- 训练结果显示,使用特定超参数集的框架整体准确率为30.26%。
实验环境
- 实验在配备NVIDIA TITAN X 12gb GPU的机器上进行。
训练结果
- 训练和验证的准确率及损失曲线如图所示:
- 随机视频的推理结果如图所示:
搜集汇总
数据集介绍

构建方式
Breakfast Action Dataset的构建方式主要通过从Serre Lab获取原始视频数据,并进行预处理。原始数据包括多个参与者在不同场景下的视频,每个视频对应特定的动作标签。预处理步骤包括将视频帧提取为图像,并根据动作类别进行分类存储。最终的数据集结构按动作类别组织,每个类别下包含多个视频帧序列,便于后续的模型训练和评估。
特点
Breakfast Action Dataset的主要特点在于其丰富的动作类别和高分辨率的视频帧。该数据集涵盖了48种不同的动作,且每个动作由多个视频片段组成,确保了数据的多样性和代表性。此外,数据集经过精细的预处理,视频帧按动作类别分类存储,便于模型直接使用。
使用方法
使用Breakfast Action Dataset时,首先需下载并配置数据集路径,确保数据集结构与模型要求一致。接着,用户可通过修改train.py文件中的超参数(如batch_size、epoch数等)来训练模型。训练过程中,可通过TensorBoard实时监控训练进度和结果。训练完成后,用户可使用inference.py对新视频进行动作识别,输出概率最高的动作类别。
背景与挑战
背景概述
Breakfast Action Dataset(早餐动作数据集)由Serre Lab于2014年创建,旨在解决视频中人类动作识别的复杂问题。该数据集包含了48种不同的动作类别,涵盖了日常生活中的多种行为,如烹饪、饮食等。其核心研究问题是如何在复杂场景中准确识别和分类人类动作,尤其是在多变的光照条件和不同的视角下。该数据集的发布对视频动作识别领域产生了深远影响,为研究人员提供了一个标准化的基准,推动了深度学习模型在该领域的应用和发展。
当前挑战
Breakfast Action Dataset在构建和应用过程中面临多项挑战。首先,数据集包含的动作类别多样且复杂,涵盖了从简单的搅拌到复杂的烹饪步骤,这要求模型具备高度的泛化能力。其次,视频数据的多变性,包括不同的光照条件、视角变化和背景噪声,增加了动作识别的难度。此外,数据集的预处理过程也面临挑战,如视频帧的提取、标注的准确性以及数据集的分割等。这些挑战共同构成了该数据集在实际应用中的主要障碍。
常用场景
经典使用场景
Breakfast Action Dataset 主要用于视频中人类动作识别的研究,特别是在早餐场景下的动作分类。该数据集包含了多种早餐制作过程中的动作视频,如搅拌牛奶、煮咖啡、煎蛋等,为研究人员提供了丰富的动作样本。通过使用该数据集,研究者可以训练和验证动作识别模型,特别是在复杂场景下的动作分类任务中表现出色。
实际应用
Breakfast Action Dataset 在实际应用中具有广泛的应用前景,特别是在智能家居、视频监控和机器人技术领域。例如,该数据集可以用于训练智能家居系统,使其能够识别和响应用户的早餐制作动作,从而提供个性化的服务。此外,在视频监控中,该数据集可以帮助识别异常行为,提升安全监控的效率。
衍生相关工作
基于 Breakfast Action Dataset,许多研究者开发了多种动作识别模型,如 C3D 模型,并在该数据集上进行了验证。这些模型不仅提升了动作识别的准确性,还推动了视频理解技术的发展。此外,该数据集还激发了其他相关研究,如多模态动作识别和跨场景动作迁移等,进一步扩展了动作识别的研究领域。
以上内容由遇见数据集搜集并总结生成



