HoloAssist
收藏arXiv2023-09-29 更新2024-06-21 收录
下载链接:
https://holoassist.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
HoloAssist是由微软和苏黎世联邦理工学院合作开发的大规模第一人称人类交互数据集,专注于现实世界中的交互式AI助手。数据集包含350对指导者和执行者的合作完成物理操作任务的视频,总计166小时。数据集通过混合现实头戴设备捕捉,包括七种同步数据流,如RGB视频、深度图像、头部姿态、手部姿态等。HoloAssist旨在通过丰富的行为观察和动作对话注释,为构建能够流畅协作的AI助手提供重要资源,解决现实世界中的任务执行问题。
HoloAssist is a large-scale first-person human interaction dataset co-developed by Microsoft and ETH Zurich, focusing on interactive AI assistants in real-world scenarios. The dataset contains 350 video recordings of collaborative physical manipulation tasks completed by 350 pairs of instructors and executors, with a total duration of 166 hours. Captured via mixed reality headsets, the dataset includes seven synchronized data streams such as RGB video, depth images, head poses, hand poses, and more. HoloAssist aims to provide essential resources for building AI assistants capable of seamless collaboration through rich behavioral observations and action-dialogue annotations, to address real-world task execution challenges.
提供机构:
微软
创建时间:
2023-09-29
搜集汇总
数据集介绍

构建方式
HoloAssist数据集的构建是通过让两位参与者协作完成物理操作任务来进行的。任务执行者佩戴混合现实头戴式设备,同时捕捉七种同步的数据流,包括RGB图像、深度图像、头部姿态、3D手部姿态、眼动追踪、音频和IMU数据。任务指导者实时观看执行者的第一人称视频,并通过口头指导来引导他们完成任务。数据集通过增加动作和对话注释,并观察不同参与者的丰富行为,为构建能够与人类在现实世界中流畅协作的AI助手提供了关键见解。
特点
HoloAssist数据集的特点在于其多模态性和交互性。数据集包含了166小时的数据,由350对独特的指导者和执行者对收集。任务涉及20个以物体为中心的操作任务,对象范围从日常生活中的常见电子设备到工厂和特殊实验室中的罕见物体。数据集的丰富性为研究人员提供了宝贵的资源,用于训练和评估能够感知、推理和与人类在物理世界中互动的智能体。
使用方法
使用HoloAssist数据集的方法包括数据预处理、模型训练和评估。首先,研究人员需要将数据集中的多模态数据进行同步和预处理,以适应不同的模型输入。然后,可以使用各种机器学习和深度学习模型对数据进行训练,以实现动作识别、错误检测、干预类型预测和3D手部姿态预测等任务。最后,通过在测试集上评估模型的性能,研究人员可以了解不同模态在不同任务中的作用,并为构建更智能、更适应现实世界的AI助手提供指导。
背景与挑战
背景概述
随着人工智能技术的不断发展,构建能够感知、推理并与人类在现实世界中协作的交互式AI助手成为AI领域的一项重要挑战。HoloAssist数据集正是为了应对这一挑战而创建的。该数据集由微软研究院和苏黎世联邦理工学院的研究人员合作开发,旨在探索并解决智能体与人类共享视角、在物理世界中互动引导人类用户完成任务的问题。HoloAssist数据集包含166小时的由350对独特的指导者和执行者对收集的数据,执行者佩戴AR设备完成任务,而指导者则通过实时观看执行者的第一人称视角视频来提供口头指导。该数据集包含了7种同步的传感器模态,包括RGB、深度、头部姿态、3D手势、眼球追踪、音频和IMU,这些数据有助于理解人类意图、估计世界状态、预测未来行动等。此外,数据集还进行了丰富的手动注释,包括文本摘要、干预类型、错误标注和视频中的动作片段。HoloAssist数据集的推出为构建能够流畅地与人类在现实世界中协作的AI助手提供了重要的资源。
当前挑战
HoloAssist数据集面临的主要挑战包括:1)构建能够准确检测任务执行过程中出现的错误的模型;2)预测指导者在何时以及如何干预任务完成过程;3)预测执行者的3D手势。这些挑战都是交互式AI助手的关键组成部分,需要模型具备准确理解人类行为、推理世界状态和预测未来行动的能力。此外,数据集的构建过程中也遇到了挑战,例如需要设计高效的数据收集工具、进行大规模的注释工作以及确保数据质量。为了应对这些挑战,研究人员开发了一个分布式应用来捕获数据,并采用了严格的质量控制流程来确保注释的准确性。HoloAssist数据集的推出为相关领域的研究提供了重要的资源和方向。
常用场景
经典使用场景
HoloAssist数据集为交互式AI助手在现实世界中的应用提供了丰富的资源。其经典使用场景包括模拟人类互动、引导任务执行、错误检测和干预预测等。该数据集包含了350对表演者和指导者合作完成的166小时的多模态数据,为研究人员提供了理解人类互动模式和开发智能助手的关键信息。
衍生相关工作
HoloAssist数据集衍生了一系列相关的研究工作。例如,研究人员利用该数据集开发了新的基准任务,包括错误检测、干预预测和3D手部姿态预测,这些任务对于构建交互式和基于环境的AI助手至关重要。此外,HoloAssist数据集还促进了多模态学习的研究,帮助研究人员更好地理解人类互动模式和开发更智能的AI助手。
数据集最近研究
最新研究方向
HoloAssist 数据集聚焦于构建能够感知、推理并与人类在现实世界中互动的人工智能助手。该数据集记录了两位参与者合作完成物理操作任务的场景,其中执行者佩戴混合现实头戴设备,而指导者通过实时观看执行者的第一人称视频并口头指导。研究观察了人类助手如何纠正错误、干预任务完成过程以及将指令与环境的联系。HoloAssist 数据集的引入填补了现有数据集在真实世界互动和传感器感知方面的空白,为构建能够流畅与人类协作的 AI 助手提供了重要资源。
相关研究论文
- 1HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World微软 · 2023年
以上内容由遇见数据集搜集并总结生成



