five

HA-ViD|工业装配数据集|机器人学习数据集

收藏
arXiv2023-07-09 更新2024-06-21 收录
工业装配
机器人学习
下载链接:
https://iai-hrc.github.io/ha-vid
下载链接
链接失效反馈
资源简介:
HA-ViD是由奥克兰大学开发的人类装配视频数据集,专注于全面理解工业装配知识。该数据集包含3222个多视角、多模态视频,每个视频记录一个装配任务,涵盖150万个帧和详细的动作标注。数据集设计用于支持机器人技能学习、人机协作装配和质量保证等未来智能工业应用。
提供机构:
The University of Auckland
创建时间:
2023-07-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
HA-ViD 数据集的构建旨在为未来超智能工业应用提供全面装配知识理解的能力。该数据集通过捕捉真实世界装配场景、自然程序知识获取过程以及一致的人机共享注释来达到这一目标。HA-ViD 捕捉了现实世界中装配的多样化协作模式、装配过程中的人类自然行为和学习进展,并将动作注释细分为主体、动作动词、操作对象、目标对象和工具。该数据集提供了 3222 个多视角、多模态视频(每个视频包含一个装配任务)、150 万帧、9.6 万个时间标签和 200 万个空间标签。
特点
HA-ViD 数据集的特点在于其真实性和全面性。它代表性地涵盖了工业装配场景,通过设计的三阶段渐进式装配设置捕捉了自然程序知识获取过程,并采用了一致的人机共享注释协议。数据集包含多视角、多模态数据,细粒度的动作注释(主体、动作动词、操作对象、目标对象和工具),以及人类暂停和错误注释,以及协作状态注释。这些特点使得 HA-ViD 成为理解工业装配场景中应用导向知识的重要资源。
使用方法
HA-ViD 数据集可用于各种视频理解任务,包括动作识别、动作分割、目标检测和多目标跟踪。用户可以下载该数据集,并根据需要将其应用于各种研究项目,例如机器人技能学习、人机协作装配和质量保证。为了使用该数据集,用户需要具备视频理解和计算机视觉领域的专业知识,并能够处理大规模的多模态数据。
背景与挑战
背景概述
随着智能制造的兴起,视频中的装配知识理解对于未来的超智能工业应用至关重要。为了实现技术突破,HA-ViD 数据集应运而生,这是首个包含代表性工业装配场景、自然程序知识获取过程和一致的人机共享注释的人类装配视频数据集。HA-ViD 捕捉了现实世界中装配的多样化协作模式、装配过程中自然的人类行为和学习进步,并将动作注释细分为主体、动作动词、操纵对象、目标对象和工具。该数据集提供了 3222 个多视角、多模态视频(每个视频包含一个装配任务)、150 万帧、9.6 万个时间标签和 200 万个空间标签。我们基准了四个基础视频理解任务:动作识别、动作分割、对象检测和多对象跟踪。重要的是,我们分析了它们在理解装配进度、过程效率、任务协作、技能参数和人类意图方面的性能。
当前挑战
HA-ViD 数据集面临的挑战包括:1) 所解决的领域问题,例如动作识别、动作分割、对象检测和多对象跟踪,这些任务在装配视频中理解综合知识方面具有挑战性;2) 构建过程中遇到的挑战,例如数据集的类别不平衡可能导致模型性能偏差,以及现实世界中装配场景的复杂性和多样性可能无法完全捕捉。此外,现有视频理解方法在理解应用导向的知识方面存在不足,需要探索新的方法。
常用场景
经典使用场景
HA-ViD数据集主要用于视频理解任务,特别是动作识别、动作分割、物体检测和多目标跟踪。这些任务在理解装配过程、过程效率、任务协作、技能参数和人类意图方面具有重要意义。HA-ViD数据集的特点是捕捉真实世界装配场景中的多样化协作模式、自然的人类行为和学习过程,并提供了主体、动作动词、操作对象、目标对象和工具的细致动作注释。数据集包含3222个多视角、多模态视频,以及150万帧图像,为研究提供了丰富的数据资源。
实际应用
HA-ViD数据集在实际应用中可用于机器人技能学习、人机协作装配和质量保证等领域。通过分析装配过程中的动作识别和动作分割,可以优化装配流程,提高效率。同时,多目标跟踪技术可以用于实时监控装配过程,确保产品质量。此外,数据集的细致注释和共享的注释协议有助于实现人机协作知识的转移,为智能制造的发展提供支持。
衍生相关工作
HA-ViD数据集的发布激发了更多相关研究,包括基于视频的人机交互检测、动作预测和任务目标理解等。通过分析装配过程中的动作识别和动作分割,可以优化装配流程,提高效率。同时,多目标跟踪技术可以用于实时监控装配过程,确保产品质量。此外,数据集的细致注释和共享的注释协议有助于实现人机协作知识的转移,为智能制造的发展提供支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录