five

FHA-Kitchens

收藏
arXiv2023-06-19 更新2024-07-24 收录
下载链接:
https://github.com/superZ678/FHA-Kitchens
下载链接
链接失效反馈
官方服务:
资源简介:
FHA-Kitchens数据集专注于厨房场景中的细粒度手部动作,包含2,377个视频片段和30,047张图像,所有图像中的手部交互区域都标有高质量的细粒度动作类别和边界框。数据集由武汉大学和中国其他合作机构共同创建,旨在解决现有数据集在手部动作识别方面的不足,特别是缺乏对细粒度动作的捕捉和标注。创建过程中,研究团队从公开的大型动作数据集中提取了与手部动作高度相关的视频,并进行了帧提取和清理处理。随后,通过十名志愿标注者的细致标注,将手部交互区域分为三个不同的子区域,并为每个子交互区域提供了边界框标注。此外,手部动作被分为三种不同的类型,每个子交互区域的动作使用三元组格式<主体, 动作动词, 对象>进行标注,共计878个动作三元组。数据集的应用领域包括监督学习、域泛化和手部交互区域检测,旨在为细粒度手部动作识别的研究提供坚实的基础。

The FHA-Kitchens dataset focuses on fine-grained hand actions in kitchen scenarios, containing 2,377 video clips and 30,047 images. All hand interaction regions in these images are annotated with high-quality fine-grained action categories and bounding boxes. This dataset was jointly created by Wuhan University and other collaborating institutions in China, aiming to address the shortcomings of existing datasets in hand action recognition, particularly the lack of capture and annotation for fine-grained actions. During the dataset construction process, the research team extracted videos highly correlated with hand movements from publicly available large-scale action datasets, and performed frame extraction and cleaning processing. Subsequently, through meticulous annotation by ten volunteer annotators, the hand interaction regions were divided into three distinct sub-regions, with bounding box annotations provided for each sub-interaction region. In addition, hand actions are categorized into three different types, and the actions for each sub-interaction region are annotated in the triplet format <subject, action verb, object>, totaling 878 action triplets. The application fields of this dataset include supervised learning, domain generalization and hand interaction region detection, aiming to provide a solid foundation for research on fine-grained hand action recognition.
提供机构:
武汉大学, 中国
创建时间:
2023-06-19
原始信息汇总

FHA-Kitchens 数据集概述

数据集介绍

FHA-Kitchens 数据集专注于厨房场景中的细粒度手部动作识别。该数据集包含 2,377 个视频片段和 30,047 张图像,均来自八种不同的菜肴类型。每帧图像都附有精心标注的手部交互区域,包括高质量的细粒度动作类别和边界框标注。

数据集用途

该数据集可用于以下任务:

  • 手部交互区域和物体检测的监督学习(SL-D)
  • 细粒度手部动作识别的监督学习(SL-AR)
  • 手部交互区域检测的类内和类间域泛化(DG)

标注详情

标注可视化

  • 图2:左侧展示了“炒蔬菜”示例的边界框标注,右侧列出了动作三元组和边界框标注的描述性列表。

边界框标注示例

  • 视频演示:展示了不同交互区域的边界框标注。

数据集统计和分析

动作动词类别分布

  • 图4:展示了FHA-Kitchens数据集中动作动词及其父动作类别的概览。
  • 图5:展示了每个动作动词类别的实例分布。

交互物体名词类别分布

  • 图6:展示了17个超级类别中每个物体名词类别的实例分布。

动作三元组类别分布

  • 图7:展示了每个动作三元组类别的实例分布。

边界框统计

  • 图8:展示了交互物体和交互区域的边界框面积分布。
  • 图9:展示了交互物体和交互区域的边界框宽高比分布。

交互区域检测可视化

  • 图10:展示了使用数据集标注数据进行交互区域检测的一些视觉示例。
搜集汇总
数据集介绍
main_image_url
构建方式
FHA-Kitchens数据集通过从公开的大型动作数据集Kinetics 700_2020中筛选与手部动作相关的视频,并进行帧提取和清洗,构建而成。数据集包含2,377个视频片段和30,047张图像,涵盖8种不同的菜品类型。为了确保高质量的标注,研究团队招募了10名志愿者,使用Amazon Mechanical Turk平台进行精细动作三元组的标注,同时使用LabelBee工具进行边界框标注。每个手部交互区域被细分为左、右手与物体交互区域以及物体间交互区域,并采用三元组格式<主体, 动作动词, 对象>进行标注,最终形成了878个动作三元组类别。
特点
FHA-Kitchens数据集的显著特点在于其对手部动作的精细划分和高维度的动作表示。数据集不仅标注了手部交互区域和交互对象的边界框,还通过三元组格式详细描述了每个交互区域的动作信息,涵盖了131个动作动词和384个交互对象类别。此外,数据集还考虑了物体间的主动与被动关系以及接触区域,进一步提升了动作信息的精细度。这种高维度的标注方式使得数据集在细粒度手部动作识别任务中具有显著优势。
使用方法
FHA-Kitchens数据集可用于多种手部动作识别和检测任务,包括手部交互区域和对象的检测、细粒度手部动作识别以及跨类和跨域的泛化能力研究。研究者可以使用该数据集训练和评估动作识别模型,如TSN、SlowFast和Video Swin等,并通过不同的训练策略(如预训练和从头训练)来探索模型的性能。此外,数据集的标注信息还可用于动作分割任务,为手部动作的像素级理解提供支持。数据集的划分遵循7:1:2的比例,分为训练集、验证集和测试集,便于研究者进行模型训练和评估。
背景与挑战
背景概述
FHA-Kitchens数据集是由武汉大学、悉尼大学、北京理工大学和南洋理工大学的研究人员共同创建的,专注于厨房场景中的细粒度手部动作识别。该数据集于2023年提出,旨在填补现有数据集在细粒度手部动作识别领域的空白。现有数据集大多关注全身动作或动作类别较为粗略,而FHA-Kitchens数据集则通过精细标注手部交互区域和动作信息,提供了2,377个视频片段和30,047张图像,涵盖8种不同类型的菜品。数据集通过三元组形式(<主体, 动作动词, 对象>)标注手部动作,共包含878个动作三元组,极大地推动了细粒度手部动作识别的研究。
当前挑战
FHA-Kitchens数据集的构建面临多重挑战。首先,细粒度手部动作的多样性和复杂性使得数据收集和标注变得极为困难。其次,手部动作的精细分类和交互区域的定位需要高度精确的标注,这增加了数据集构建的复杂性。此外,数据集的长尾分布特性使得模型在处理稀有动作类别时面临挑战,尤其是在少样本学习和领域泛化方面。最后,手部动作的细粒度识别要求模型能够捕捉微小的动作细节,这对现有的动作识别模型提出了更高的要求。
常用场景
经典使用场景
FHA-Kitchens数据集的经典使用场景主要集中在厨房场景中的细粒度手部动作识别。该数据集通过对手部交互区域进行深度挖掘,提供了高质量的细粒度动作类别和边界框标注。研究者可以利用该数据集进行手部交互区域和对象的检测,以及细粒度手部动作的识别。通过对手部动作的精细分类,该数据集为研究者提供了丰富的信息,帮助他们更好地理解和识别厨房场景中的复杂手部动作。
实际应用
FHA-Kitchens数据集在实际应用中具有广泛的前景,特别是在智能家居、机器人控制和人机交互等领域。例如,在智能家居系统中,该数据集可以帮助识别用户在厨房中的手部动作,从而实现更智能的厨房设备控制。在机器人领域,该数据集可以用于训练机器人对手部动作的理解和响应,提升其在复杂环境中的操作能力。此外,该数据集还可以应用于医疗领域,帮助分析和识别患者的手部动作,辅助康复训练和诊断。
衍生相关工作
FHA-Kitchens数据集的推出催生了一系列相关研究工作,特别是在细粒度手部动作识别和手部交互区域检测方面。基于该数据集,研究者们探索了多种模型在细粒度动作识别任务中的表现,如TSN、SlowFast和Video Swin等模型。此外,该数据集还激发了对领域泛化问题的研究,特别是在手部动作识别中的类内和类间泛化能力。未来,该数据集有望进一步推动手部动作识别领域的研究,特别是在少样本学习和分布外泛化方面的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作