five

FHA-Kitchens|手部动作识别数据集|细粒度动作分析数据集

收藏
arXiv2023-06-19 更新2024-07-24 收录
手部动作识别
细粒度动作分析
下载链接:
https://github.com/superZ678/FHA-Kitchens
下载链接
链接失效反馈
资源简介:
FHA-Kitchens数据集专注于厨房场景中的细粒度手部动作,包含2,377个视频片段和30,047张图像,所有图像中的手部交互区域都标有高质量的细粒度动作类别和边界框。数据集由武汉大学和中国其他合作机构共同创建,旨在解决现有数据集在手部动作识别方面的不足,特别是缺乏对细粒度动作的捕捉和标注。创建过程中,研究团队从公开的大型动作数据集中提取了与手部动作高度相关的视频,并进行了帧提取和清理处理。随后,通过十名志愿标注者的细致标注,将手部交互区域分为三个不同的子区域,并为每个子交互区域提供了边界框标注。此外,手部动作被分为三种不同的类型,每个子交互区域的动作使用三元组格式<主体, 动作动词, 对象>进行标注,共计878个动作三元组。数据集的应用领域包括监督学习、域泛化和手部交互区域检测,旨在为细粒度手部动作识别的研究提供坚实的基础。
提供机构:
武汉大学, 中国
创建时间:
2023-06-19
原始信息汇总

FHA-Kitchens 数据集概述

数据集介绍

FHA-Kitchens 数据集专注于厨房场景中的细粒度手部动作识别。该数据集包含 2,377 个视频片段和 30,047 张图像,均来自八种不同的菜肴类型。每帧图像都附有精心标注的手部交互区域,包括高质量的细粒度动作类别和边界框标注。

数据集用途

该数据集可用于以下任务:

  • 手部交互区域和物体检测的监督学习(SL-D)
  • 细粒度手部动作识别的监督学习(SL-AR)
  • 手部交互区域检测的类内和类间域泛化(DG)

标注详情

标注可视化

  • 图2:左侧展示了“炒蔬菜”示例的边界框标注,右侧列出了动作三元组和边界框标注的描述性列表。

边界框标注示例

  • 视频演示:展示了不同交互区域的边界框标注。

数据集统计和分析

动作动词类别分布

  • 图4:展示了FHA-Kitchens数据集中动作动词及其父动作类别的概览。
  • 图5:展示了每个动作动词类别的实例分布。

交互物体名词类别分布

  • 图6:展示了17个超级类别中每个物体名词类别的实例分布。

动作三元组类别分布

  • 图7:展示了每个动作三元组类别的实例分布。

边界框统计

  • 图8:展示了交互物体和交互区域的边界框面积分布。
  • 图9:展示了交互物体和交互区域的边界框宽高比分布。

交互区域检测可视化

  • 图10:展示了使用数据集标注数据进行交互区域检测的一些视觉示例。
AI搜集汇总
数据集介绍
main_image_url
构建方式
FHA-Kitchens数据集通过从公开的大型动作数据集Kinetics 700_2020中筛选与手部动作相关的视频,并进行帧提取和清洗,构建而成。数据集包含2,377个视频片段和30,047张图像,涵盖8种不同的菜品类型。为了确保高质量的标注,研究团队招募了10名志愿者,使用Amazon Mechanical Turk平台进行精细动作三元组的标注,同时使用LabelBee工具进行边界框标注。每个手部交互区域被细分为左、右手与物体交互区域以及物体间交互区域,并采用三元组格式<主体, 动作动词, 对象>进行标注,最终形成了878个动作三元组类别。
特点
FHA-Kitchens数据集的显著特点在于其对手部动作的精细划分和高维度的动作表示。数据集不仅标注了手部交互区域和交互对象的边界框,还通过三元组格式详细描述了每个交互区域的动作信息,涵盖了131个动作动词和384个交互对象类别。此外,数据集还考虑了物体间的主动与被动关系以及接触区域,进一步提升了动作信息的精细度。这种高维度的标注方式使得数据集在细粒度手部动作识别任务中具有显著优势。
使用方法
FHA-Kitchens数据集可用于多种手部动作识别和检测任务,包括手部交互区域和对象的检测、细粒度手部动作识别以及跨类和跨域的泛化能力研究。研究者可以使用该数据集训练和评估动作识别模型,如TSN、SlowFast和Video Swin等,并通过不同的训练策略(如预训练和从头训练)来探索模型的性能。此外,数据集的标注信息还可用于动作分割任务,为手部动作的像素级理解提供支持。数据集的划分遵循7:1:2的比例,分为训练集、验证集和测试集,便于研究者进行模型训练和评估。
背景与挑战
背景概述
FHA-Kitchens数据集是由武汉大学、悉尼大学、北京理工大学和南洋理工大学的研究人员共同创建的,专注于厨房场景中的细粒度手部动作识别。该数据集于2023年提出,旨在填补现有数据集在细粒度手部动作识别领域的空白。现有数据集大多关注全身动作或动作类别较为粗略,而FHA-Kitchens数据集则通过精细标注手部交互区域和动作信息,提供了2,377个视频片段和30,047张图像,涵盖8种不同类型的菜品。数据集通过三元组形式(<主体, 动作动词, 对象>)标注手部动作,共包含878个动作三元组,极大地推动了细粒度手部动作识别的研究。
当前挑战
FHA-Kitchens数据集的构建面临多重挑战。首先,细粒度手部动作的多样性和复杂性使得数据收集和标注变得极为困难。其次,手部动作的精细分类和交互区域的定位需要高度精确的标注,这增加了数据集构建的复杂性。此外,数据集的长尾分布特性使得模型在处理稀有动作类别时面临挑战,尤其是在少样本学习和领域泛化方面。最后,手部动作的细粒度识别要求模型能够捕捉微小的动作细节,这对现有的动作识别模型提出了更高的要求。
常用场景
经典使用场景
FHA-Kitchens数据集的经典使用场景主要集中在厨房场景中的细粒度手部动作识别。该数据集通过对手部交互区域进行深度挖掘,提供了高质量的细粒度动作类别和边界框标注。研究者可以利用该数据集进行手部交互区域和对象的检测,以及细粒度手部动作的识别。通过对手部动作的精细分类,该数据集为研究者提供了丰富的信息,帮助他们更好地理解和识别厨房场景中的复杂手部动作。
实际应用
FHA-Kitchens数据集在实际应用中具有广泛的前景,特别是在智能家居、机器人控制和人机交互等领域。例如,在智能家居系统中,该数据集可以帮助识别用户在厨房中的手部动作,从而实现更智能的厨房设备控制。在机器人领域,该数据集可以用于训练机器人对手部动作的理解和响应,提升其在复杂环境中的操作能力。此外,该数据集还可以应用于医疗领域,帮助分析和识别患者的手部动作,辅助康复训练和诊断。
衍生相关工作
FHA-Kitchens数据集的推出催生了一系列相关研究工作,特别是在细粒度手部动作识别和手部交互区域检测方面。基于该数据集,研究者们探索了多种模型在细粒度动作识别任务中的表现,如TSN、SlowFast和Video Swin等模型。此外,该数据集还激发了对领域泛化问题的研究,特别是在手部动作识别中的类内和类间泛化能力。未来,该数据集有望进一步推动手部动作识别领域的研究,特别是在少样本学习和分布外泛化方面的应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录