Out-of-Reach Grasping (ORG)

Name: Out-of-Reach Grasping (ORG)
Creator: 阿尔托大学; 韩国中央大学; 苏黎世联邦理工学院
Published: 2026-04-24 20:20:01
License: 暂无描述

arXiv2026-04-24 更新2026-04-28 收录

下载链接：

https://github.com/drlxj/point-and-grasp

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由阿尔托大学等机构联合创建，是首个针对混合现实中远距离物体抓取交互的数据集，包含匹配与非匹配的手势-物体对。数据集通过系统采集用户近端与远端的抓取手势，结合虚拟物体语义信息，为概率化手势-物体兼容性建模提供基础。其核心价值在于捕捉传统近端抓取数据集中未记录的交互模式，支持开发鲁棒的多模态意图推断算法，解决混合现实中因空间遮挡或语义模糊导致的物体选择难题。

This dataset was jointly created by Aalto University and other institutions, and it is the first dataset targeting remote object grasping interactions in mixed reality. It contains matched and unmatched gesture-object pairs. The dataset systematically collects proximal and distal grasping gestures from users, incorporates the semantic information of virtual objects, and provides a foundation for probabilistic gesture-object compatibility modeling. Its core value lies in capturing interaction patterns that are not recorded in traditional proximal grasping datasets, supporting the development of robust multimodal intent inference algorithms to solve object selection challenges caused by spatial occlusion or semantic ambiguity in mixed reality.

提供机构：

阿尔托大学; 韩国中央大学; 苏黎世联邦理工学院

创建时间：

2026-04-24

搜集汇总

数据集介绍

构建方式

在混合现实环境中，用户常需选取远不可及的物体，而传统单一线索在空间或语义模糊时易失效。为此，研究团队构建了Out-of-Reach Grasping (ORG)数据集，系统性地采集了用户在虚拟现实中针对30种日常物品的抓取手势数据。数据采集通过三个步骤实现：首先，物品悬浮于2米外，参与者凭空做出自然抓取手势以记录远距抓取意图；随后，同一物品移至可触及范围，参与者调整手势至实际可抓取状态，获取近距接触参考；最后，参与者保持当前手势，由实验员依次替换为5个其他物品，并口头判断该手势是否仍可抓取该物品，从而获得正负配对标注。每名参与者对每种物品在三种不同姿态下各采集一次，共19人参与，总计超过10,260个手势-物品配对样本。

特点

该数据集的独特之处在于首次聚焦于远距离抓取场景，弥补了现有近距物理抓取数据集在此领域的空白。数据包含了清晰的近距与远距抓取手势对比，统计检验显示二者在指尖位置和抓取孔径上存在显著差异，揭示了远距情境下手势的感知与运动不确定性。数据集明确标注了手势与物品的兼容性对（兼容/不兼容/不确定），训练集包含丰富的正负样本，为概率推理模型提供了校准基础。聚类分析表明，手势导致的物品混淆具有系统性结构，如杯、马克杯、酒杯等圆柱形物品常呈现相似抓取姿态，而锅铲、锤子、刀具等工具类物品则形成另一聚类，这反映了功能与形态的规律性映射。

使用方法

该数据集主要用于训练和评估一个双分支编码器架构的抓取手势-物品似然模型，为Point&Grasp交互技术提供实时概率支持。使用方法上，研究者可将数据划分为参与者内（8:2）、跨参与者（7:3）和跨物品（按聚类留一）三种泛化设置进行模型评估。模型以手部关节位置和物品点云为输入，分别通过MLP编码为256维嵌入后融合，输出手势与物品匹配的概率。在实时交互中，当用户做出抓取手势时，模型对场景中每个候选物品计算似然值，并与方向线索的似然通过贝叶斯公式融合，最终选取后验概率最大的物品作为推断目标。完整的代码和数据集已开源至GitHub，支持研究者复现实验和扩展应用。

背景与挑战

背景概述

Out-of-Reach Grasping (ORG) 数据集由 Aalto University、Chung-Ang University 和 ETH Zürich 的研究团队于 2026 年创建，旨在解决混合现实（MR）环境中远距离物体选择这一基础性人机交互难题。现有方法多依赖单一行为线索（如指向方向）或机械融合多种线索，在主导线索失效时性能显著下降。该数据集核心创新在于构建了首个专用于远距离抓取场景的中空气动数据资源，系统采集了15种日常物体在可达与不可达条件下的正负样本配对，为贝叶斯概率线索融合框架提供了关键语义概率建模基础。自发布以来，ORG 数据集直接支撑了 Point&Grasp 交互技术的开发，推动了混合现实环境下多模态意图推理的范式革新，其影响力延伸至三维交互、认知计算与新型人机界面设计领域。

当前挑战

该数据集面临的核心挑战在于双层级问题的解决：首先，在领域问题层面，远距离物体选择中单一线索（如指向方向在物体密集或遮挡时失效，抓取手势在语义相似物体间产生歧义）难以鲁棒推断用户意图，需要概率化融合异构线索以同步应对空间与语义双重模糊性；其次，在构建过程中，远距离抓取手势与物理接触抓取存在系统性差异（指尖平均位移约3厘米、抓取口径缩小），传统可达抓取数据集无法直接迁移，且需标注大量正负样本配对以保证似然模型的校准精度，同时克服跨用户、跨物体的泛化挑战——尤其是对全新物体的零样本迁移能力仍存在显著局限（分类精度仅约0.566）。

常用场景

经典使用场景

在混合现实与虚拟现实领域，远距离物体的精确选取一直是人机交互研究中的核心挑战。Out-of-Reach Grasping (ORG) 数据集专为远距离抓取场景而设计，其经典使用场景在于评估和训练基于手部姿态的意图推断模型。研究人员通过采集用户对远距离虚拟物体所做出的空中抓取手势，结合方向指向线索，构建起一种概率性多线索融合框架。该数据集为贝叶斯推断提供了关键的姿态-物体似然模型训练基础，使得系统能够在空间密集或语义模糊的复杂场景中，稳定地推断用户的真实意图，显著提升远距离目标选取的准确性与鲁棒性。

解决学术问题

该数据集解决了远距离物体选取研究中一个长期存在的学术难题：单一交互线索（如指向或抓取）在特定模糊条件下会失效，而现有规则式多线索融合方法缺乏灵活性。ORG 数据集首次系统性地采集了远距离场景下的抓取手势，并标注了正负样本对，弥补了现有数据集仅聚焦于近端物理抓取的空白。基于此数据集训练的似然模型能够捕捉抓取姿态与物体几何之间的兼容性关系，使研究者得以验证贝叶斯概率融合框架的有效性。该工作为多模态交互中线索灵活融合提供了理论基石，推动了人机交互领域从确定性规则向概率性推断的范式转变。

衍生相关工作

ORG 数据集的发布催生了多条值得关注的研究路径。一方面，基于该数据集训练的抓取-似然模型可被扩展为通用手部姿态编码器，用于更复杂的多目标场景理解；另一方面，其概率性线索融合框架启发了后续研究者探索将其他模态（如语音、注视）纳入统一贝叶斯推断体系。此外，该数据集还促进了跨被试泛化能力的建模研究，推动了可迁移手势识别技术的发展。后续工作进一步探讨了如何将远距离抓取数据与近端物理抓取数据集（如 GRAB、DexGraspNet）进行联合训练，以实现更全面的手-物交互理解，为构建更智能、更自然的混合现实交互系统奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集