five

2HANDS

收藏
arXiv2025-03-12 更新2025-03-14 收录
下载链接:
http://arxiv.org/abs/2503.09320v1
下载链接
链接失效反馈
官方服务:
资源简介:
2HANDS数据集是由达姆施塔特技术大学计算机科学系和Hessian.AI创建的,包含278000张图像,这些图像具有从人类egocentric视频中自动标记的精确可affordance区域掩码、基于叙述的类标签和单手/双手分类标签。该数据集通过利用视频中的手部遮挡信息,结合最新的手部修复和掩码完成技术,从人类活动中提取出丰富的双手操作可affordance区域,为机器人操作等任务提供了基础数据。
提供机构:
德国达姆施塔特技术大学计算机科学系,Hessian.AI
创建时间:
2025-03-12
搜集汇总
数据集介绍
main_image_url
构建方式
2HANDS数据集通过分析人类活动视频数据集中手与物体之间的接触区域来提取精确的可用性区域。该数据集包含278,000张图像,其中包含从EPIC-KITCHENS数据集中提取的可用性区域分割掩码,以及基于叙述的可用性类别标签和单手/双手分类标签。为了克服手部通常遮挡物体区域的问题,该数据集使用视频中的手部修复和掩码完成技术来提取可用性区域。首先,使用视频掩码传播网络获取整个视频序列中的密集手部掩码,然后使用基于视频的手部修复模型修复RGB图像中的手部。接下来,使用掩码完成技术对修复后的图像中的未遮挡物体进行精确分割。最后,计算未遮挡物体掩码和手部掩码之间的交集,以获取最终的手部与物体交互的可用性区域。
特点
2HANDS数据集的主要特点包括:1)包含精确的物体可用性区域分割掩码和基于叙述的可用性类别标签;2)涵盖单手和双手操作;3)提供丰富的任务特定的可用性类别,其中可用性类别标签自然来自人类执行任务的叙述。此外,该数据集还包含一个名为ActAffordance的基准测试,用于评估可用性检测与人类考虑的“真实情况”之间的对齐程度。
使用方法
2HANDS数据集可用于训练和评估基于视觉的语言模型(VLM)和其他可用性预测模型。模型训练过程涉及使用文本提示作为输入,并预测图像中与任务相关的可用性区域。评估模型性能时,可以使用ActAffordance基准测试,该测试包括人类注释的可用性区域,以评估模型预测的可用性区域与人类注释的可用性区域之间的对齐程度。此外,2HANDS数据集还可以用于真实世界的机器人操作场景,例如使用机器人执行各种任务,如倒茶、搅拌蔬菜等。
背景与挑战
背景概述
2HANDS数据集是一项旨在从人类活动视频数据集中提取精确动作可行双手动作数据的研究成果。该数据集由德国达姆施塔特工业大学计算机科学系与Hessian.AI合作创建,于2025年3月首次公布。该数据集的核心研究问题是探索如何从人类与物体交互的视频中提取精确的动作区域,并以此为基础预测动作区域。这一研究对于机器人技术、虚拟现实等领域具有重要意义,为构建能够理解并执行日常任务的智能代理提供了数据基础。
当前挑战
2HANDS数据集面临的主要挑战包括:1) 从人类活动视频中提取精确的动作区域,需要克服人类手部遮挡物体的问题;2) 预测的动作区域需要具有实际操作性,能够指导机器人执行任务;3) 双手动作预测的难度更大,需要考虑物体之间的空间关系和交互方式。
常用场景
经典使用场景
2HANDS数据集主要用于训练和评估视觉语言模型在预测物体可供性方面的性能。该数据集包含了从人类活动视频中提取的精确物体可供性区域分割和可供性类别标签。通过使用这些数据,研究者可以训练模型来预测特定任务中物体的可供性区域,从而帮助机器人更好地理解和执行任务。
解决学术问题
2HANDS数据集解决了现有可供性预测方法中存在的精度不足和缺乏双手法可供性预测的问题。通过使用人类活动视频数据,该数据集提供了精确的可供性区域分割和可供性类别标签,从而使得研究者可以训练模型来预测更加精确和可执行的可供性区域。此外,该数据集还包含了双手法可供性区域分割数据,为双手法可供性预测研究提供了重要的数据支持。
衍生相关工作
2HANDS数据集的提出和研究衍生出了许多相关的经典工作。其中,2HandedAfforder模型是基于2HANDS数据集训练的,可以预测特定任务中的单手和双手可供性区域。此外,该数据集还推动了ActAffordance基准的提出,用于评估可供性预测模型的性能。这些相关工作对于推动可供性预测领域的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作