HA-ViD
收藏arXiv2023-07-09 更新2024-06-21 收录
下载链接:
https://iai-hrc.github.io/ha-vid
下载链接
链接失效反馈官方服务:
资源简介:
HA-ViD是由奥克兰大学开发的人类装配视频数据集,专注于全面理解工业装配知识。该数据集包含3222个多视角、多模态视频,每个视频记录一个装配任务,涵盖150万个帧和详细的动作标注。数据集设计用于支持机器人技能学习、人机协作装配和质量保证等未来智能工业应用。
HA-ViD is a human assembly video dataset developed by the University of Auckland, focusing on comprehensive understanding of industrial assembly knowledge. This dataset contains 3,222 multi-view and multi-modal videos, each recording an individual assembly task, covering 1.5 million frames and detailed action annotations. The dataset is designed to support future intelligent industrial applications such as robot skill learning, human-robot collaborative assembly, and quality assurance.
提供机构:
The University of Auckland
创建时间:
2023-07-09
搜集汇总
数据集介绍

构建方式
HA-ViD 数据集的构建旨在为未来超智能工业应用提供全面装配知识理解的能力。该数据集通过捕捉真实世界装配场景、自然程序知识获取过程以及一致的人机共享注释来达到这一目标。HA-ViD 捕捉了现实世界中装配的多样化协作模式、装配过程中的人类自然行为和学习进展,并将动作注释细分为主体、动作动词、操作对象、目标对象和工具。该数据集提供了 3222 个多视角、多模态视频(每个视频包含一个装配任务)、150 万帧、9.6 万个时间标签和 200 万个空间标签。
特点
HA-ViD 数据集的特点在于其真实性和全面性。它代表性地涵盖了工业装配场景,通过设计的三阶段渐进式装配设置捕捉了自然程序知识获取过程,并采用了一致的人机共享注释协议。数据集包含多视角、多模态数据,细粒度的动作注释(主体、动作动词、操作对象、目标对象和工具),以及人类暂停和错误注释,以及协作状态注释。这些特点使得 HA-ViD 成为理解工业装配场景中应用导向知识的重要资源。
使用方法
HA-ViD 数据集可用于各种视频理解任务,包括动作识别、动作分割、目标检测和多目标跟踪。用户可以下载该数据集,并根据需要将其应用于各种研究项目,例如机器人技能学习、人机协作装配和质量保证。为了使用该数据集,用户需要具备视频理解和计算机视觉领域的专业知识,并能够处理大规模的多模态数据。
背景与挑战
背景概述
随着智能制造的兴起,视频中的装配知识理解对于未来的超智能工业应用至关重要。为了实现技术突破,HA-ViD 数据集应运而生,这是首个包含代表性工业装配场景、自然程序知识获取过程和一致的人机共享注释的人类装配视频数据集。HA-ViD 捕捉了现实世界中装配的多样化协作模式、装配过程中自然的人类行为和学习进步,并将动作注释细分为主体、动作动词、操纵对象、目标对象和工具。该数据集提供了 3222 个多视角、多模态视频(每个视频包含一个装配任务)、150 万帧、9.6 万个时间标签和 200 万个空间标签。我们基准了四个基础视频理解任务:动作识别、动作分割、对象检测和多对象跟踪。重要的是,我们分析了它们在理解装配进度、过程效率、任务协作、技能参数和人类意图方面的性能。
当前挑战
HA-ViD 数据集面临的挑战包括:1) 所解决的领域问题,例如动作识别、动作分割、对象检测和多对象跟踪,这些任务在装配视频中理解综合知识方面具有挑战性;2) 构建过程中遇到的挑战,例如数据集的类别不平衡可能导致模型性能偏差,以及现实世界中装配场景的复杂性和多样性可能无法完全捕捉。此外,现有视频理解方法在理解应用导向的知识方面存在不足,需要探索新的方法。
常用场景
经典使用场景
HA-ViD数据集主要用于视频理解任务,特别是动作识别、动作分割、物体检测和多目标跟踪。这些任务在理解装配过程、过程效率、任务协作、技能参数和人类意图方面具有重要意义。HA-ViD数据集的特点是捕捉真实世界装配场景中的多样化协作模式、自然的人类行为和学习过程,并提供了主体、动作动词、操作对象、目标对象和工具的细致动作注释。数据集包含3222个多视角、多模态视频,以及150万帧图像,为研究提供了丰富的数据资源。
实际应用
HA-ViD数据集在实际应用中可用于机器人技能学习、人机协作装配和质量保证等领域。通过分析装配过程中的动作识别和动作分割,可以优化装配流程,提高效率。同时,多目标跟踪技术可以用于实时监控装配过程,确保产品质量。此外,数据集的细致注释和共享的注释协议有助于实现人机协作知识的转移,为智能制造的发展提供支持。
衍生相关工作
HA-ViD数据集的发布激发了更多相关研究,包括基于视频的人机交互检测、动作预测和任务目标理解等。通过分析装配过程中的动作识别和动作分割,可以优化装配流程,提高效率。同时,多目标跟踪技术可以用于实时监控装配过程,确保产品质量。此外,数据集的细致注释和共享的注释协议有助于实现人机协作知识的转移,为智能制造的发展提供支持。
以上内容由遇见数据集搜集并总结生成



