EgoHumans
收藏arXiv2023-08-19 更新2024-06-21 收录
下载链接:
https://rawalkhirodkar.github.io/egohumans
下载链接
链接失效反馈官方服务:
资源简介:
EgoHumans是由Meta Reality Labs创建的全新多视角多人视频基准数据集,专注于推动第一人称视角下的3D人体姿态估计和跟踪技术。该数据集包含超过125,000张第一人称视角的RGB图像,涵盖多种自然环境下的挑战性多人活动,如网球、击剑、排球等。数据集通过使用消费级可穿戴相机眼镜捕捉动态活动,并结合多视角设置生成精确的3D地面实况,即使在严重或完全遮挡的情况下也能保持准确性。EgoHumans不仅提供了高质量的3D地面实况,还通过严格的评估揭示了现有技术的局限性,并提出了新的方法EgoFormer,该方法通过多流变换器架构和明确的3D空间推理,显著提高了跟踪性能。
EgoHumans is a novel multi-view multi-person video benchmark dataset developed by Meta Reality Labs, dedicated to advancing 3D human pose estimation and tracking technologies in first-person perspectives. This dataset includes over 125,000 first-person RGB images, covering challenging multi-person activities in various natural environments such as tennis, fencing, volleyball, and others. It captures dynamic activities using consumer-grade wearable camera glasses, and generates accurate 3D ground truth through multi-view configurations, maintaining accuracy even under severe or total occlusions. EgoHumans not only provides high-quality 3D ground truth, but also reveals the limitations of existing state-of-the-art techniques via rigorous evaluations, and proposes a novel method named EgoFormer. This method utilizes multi-stream Transformer architectures and explicit 3D spatial reasoning to substantially improve tracking performance.
提供机构:
Meta Reality Labs
创建时间:
2023-05-26
搜集汇总
数据集介绍

构建方式
EgoHumans数据集通过创新的3D捕捉设置构建,结合了多个穿戴式眼镜的自我中心视角和固定次级摄像机的辅助视角。这种灵活且移动的设置使得在多样化的自然环境中生成高质量的多人3D注释成为可能。数据集利用消费级穿戴式摄像设备,捕捉如网球、击剑、排球等动态活动,即使在严重或完全遮挡的情况下也能生成准确的3D地面真相。
特点
EgoHumans数据集显著超越了现有的基准,特别是在捕捉不受限制的户外环境和动态人类活动方面。活动未经编排,真实反映了自然环境中的行为。视频序列包括快速自我相机运动、人与人之间的遮挡、截断以及人在空间尺度上的广泛变化。此外,数据集提供了多视角次级摄像机的3D注释,促进了自我中心和次级视角之间的流畅转换。
使用方法
EgoHumans数据集适用于多种任务,如人体检测、跟踪、2D/3D姿态估计和网格恢复。研究者可以利用该数据集评估和改进现有的多人跟踪算法,特别是针对自我中心视角的挑战。数据集的高质量和多样性为开发和测试新的计算机视觉算法提供了前所未有的机会。
背景与挑战
背景概述
EgoHumans数据集由Rawal Khirodkar等人于2023年创建,旨在推动第一人称视角下3D人体姿态估计与跟踪的前沿研究。该数据集的核心研究问题在于解决现有第一人称数据集在多样性和复杂性上的不足,特别是单一主体或仅限于室内场景的限制。EgoHumans通过引入多视角、多人体、户外动态活动的视频数据,为计算机视觉算法在真实世界应用中的泛化能力提供了新的基准。该数据集的创建不仅填补了领域内的空白,还为沉浸式社交远程呈现、辅助人形机器人和增强现实系统等应用领域提供了关键数据支持。
当前挑战
EgoHumans数据集在构建过程中面临多项挑战。首先,解决领域问题方面,该数据集需应对多人体、快速移动和严重遮挡等复杂场景下的3D姿态估计与跟踪。其次,构建过程中,研究人员需克服多视角相机同步、高精度3D标注以及动态环境下相机校准等技术难题。此外,数据集的多样性和真实性要求也增加了数据采集和处理的复杂度。这些挑战不仅推动了数据集质量的提升,也为相关算法的发展提供了新的研究方向。
常用场景
经典使用场景
EgoHumans数据集的经典使用场景主要集中在从第一人称视角进行3D人体姿态估计和跟踪。该数据集通过多视角视频捕捉,提供了丰富的3D标注,支持多样化的任务,如人体检测、跟踪、2D/3D姿态估计和网格恢复。这些数据在推动计算机视觉算法在真实世界应用中的泛化能力方面具有重要意义。
解决学术问题
EgoHumans数据集解决了现有第一人称视角数据集在多样性和复杂性方面的不足,特别是单人或仅限于室内场景的限制。通过提供户外和动态活动的多视角视频,该数据集显著提升了算法在复杂和非编排场景下的鲁棒性和泛化能力。这对于推动沉浸式社交远程呈现、辅助人形机器人和增强现实系统等领域的研究具有重要意义。
衍生相关工作
基于EgoHumans数据集,研究者们提出了多种创新方法,如EgoFormer,这是一种利用多流变换器架构和显式3D空间推理来估计和跟踪人体姿态的新方法。EgoFormer在EgoHumans数据集上的表现显著优于先前的技术,特别是在多人跟踪任务中。此外,该数据集还激发了其他相关研究,如改进的视觉惯性里程计算法和多视角人体姿态估计方法。
以上内容由遇见数据集搜集并总结生成



