five

Wilhelm Tell Affordance Demonstrations Dataset

收藏
arXiv2025-07-23 更新2025-07-25 收录
下载链接:
https://github.com/ease-crc/WilhelmTellDataset
下载链接
链接失效反馈
官方服务:
资源简介:
Wilhelm Tell Affordance Demonstrations Dataset 是一个用于学习日常家庭任务中可利用性的新数据集。该数据集包含从第一人称和第三人称视角演示任务的视频序列,以及关于任务中表现出的可利用性的元数据。数据集旨在训练感知系统识别可利用性的表现。演示是由多位参与者收集的,总共记录了大约七个小时的人类活动。任务表演的多样性也允许研究人们可能为任务执行的预备动作,例如如何安排他们的任务空间,这对于协作服务机器人也很有用。

The Wilhelm Tell Affordance Demonstrations Dataset is a novel dataset dedicated to learning affordances in everyday household tasks. It contains video sequences demonstrating tasks from both first-person and third-person perspectives, alongside metadata regarding the affordances exhibited during these tasks. The dataset is designed to train perception systems to recognize the manifestation of affordances. Demonstrations were collected from multiple participants, with approximately seven hours of total human activity recorded. The diversity of task performances also enables research on preparatory actions that people may perform during task execution, such as how they arrange their task spaces, which is also useful for collaborative service robots.
提供机构:
德国不莱梅大学数字媒体实验室
创建时间:
2025-07-23
原始信息汇总

The Wilhelm Tell Dataset of Affordance Demonstrations 数据集概述

数据集简介

  • 数据集名称:The Wilhelm Tell Dataset of Affordance Demonstrations
  • 数据类型:视频序列(第一人称和第三人称视角)、元数据
  • 数据内容:记录常见家庭任务的示能性演示
  • 目标:训练感知系统识别示能性表现
  • 数据规模:23名参与者,约7小时的人类活动记录

数据收集方法

  • 参与者:23名
  • 环境:实验室环境中,参与者站在放有各种家庭物品的桌子前
  • 任务:围绕苹果使用物品展示示能性
  • 录制设备:
    • 第一人称视角:GoPro头戴式摄像头
    • 第三人称视角:固定摄像头

任务设计

  • 第一轮任务:7个任务(任务3和4有a/b变体)
  • 第二轮和第三轮任务:扩展任务列表,包含更多示能性演示任务
  • 任务示例:
    • 用叉子刺苹果并抬起
    • 用刀将苹果切成两半
    • 用叉子刺苹果并移动
    • 将苹果块放入杯子中
    • 拿起杯子并移动
    • 将苹果块倒入碗中
    • 拿起碗并移动

数据结构

  • 数据按参与者ID分文件夹存储
  • 每个参与者文件夹包含:
    • 每个任务包的ego和frontal视角视频(MP4格式)
    • 包含所有任务包的完整视频
  • 其他文件:
    • Annotations/:CSV格式的注释文件
    • TestFrames/:带注释的测试帧
    • functional_part_labels.yml:注释类别描述
    • train_test_split.yml:训练和测试视频路径列表

文件格式

  • 视频:189个MP4格式视频,总计417分钟
  • 注释:CSV格式,描述任务完成时间和示能性表现

训练-测试划分

  • 训练视频:102个
  • 测试视频:44个
  • 注释内容:
    • 功能部件的分割
    • 任务完成时间段的注释

下载链接

作者

  • Rachel Ringe
  • Mihai Hawkin
  • Nikolaos Tsiogkas
  • Stefano De Giorgis
  • Maria Hedblom
  • Rainer Malaka

许可证

  • CC-BY许可证

维护计划

  • 视频、静态图像和注释文件托管在大学服务器和NEEMHub

致谢

搜集汇总
数据集介绍
main_image_url
构建方式
Wilhelm Tell Affordance Demonstrations Dataset通过多视角视频序列捕捉家庭环境中物体功能性的动态表现,采用头戴式GoPro与第三人称视角同步记录23名参与者执行14项标准化任务的完整过程。研究团队设计了基于苹果操作的系列任务(如切割、盛装、倾倒等),通过自由化操作指令激发多样化的预备动作与空间组织策略,最终构建了包含189段视频(总时长417分钟)的多模态数据集,每段视频均标注了物体交互时间区间及功能热点空间信息。
特点
该数据集突破了静态图像标注的传统范式,首次实现了多物体交互场景下功能性表征的动态捕捉。其核心价值在于同时包含第一人称与观察者视角视频流,完整记录任务执行时的空间重构过程与物体状态变迁。数据覆盖AffordanceNet和AfNet中90%的常见家居功能性标签,并新增穿刺(Stab)与倾倒(Pour)两类动作。参与者操作的自主性差异形成了丰富的动作变体,为研究人类任务准备行为提供了独特观察窗口。
使用方法
研究者可利用该数据集训练视觉系统识别物体功能性热点,典型流程包括:选择目标功能性标签→提取训练视频中物体交互帧序列→通过半自动标注工具生成功能性区域掩膜→训练语义分割模型。测试集已预分割为44段带CSV标注的视频,包含精确的时间戳与空间热点标注。进阶应用可分析视频中人类的空间组织策略,如工具预摆放、工作区域划分等行为模式,为服务机器人协作算法开发提供认知参照。
背景与挑战
背景概述
Wilhelm Tell Affordance Demonstrations Dataset是由德国不来梅大学数字媒体实验室、比利时鲁汶大学计算机科学系、意大利国家研究委员会认知科学与技术研究所以及瑞典延雪平工程学院等机构的研究人员联合创建的多模态数据集,旨在推动机器人对家庭环境中物体功能性的视觉理解能力。该数据集于2023年发布,收录了23名参与者执行日常任务的7小时多视角视频,重点捕捉物体间交互时涌现的功能性特征(affordance),填补了传统基于静态图像标注的affordance识别方法在动态场景理解上的空白。其创新性在于通过第一人称和第三人称视角同步记录人类操作行为,为机器人学习物体功能语义提供了真实世界的动态观察样本,受到欧盟FET-Open项目和德国科学基金会CRC1320项目的联合资助。
当前挑战
该数据集主要解决机器人领域对动态affordance理解的三大挑战:首先,传统基于形状标注的affordance识别难以捕捉物体在真实交互中展现的功能特性,需建立从动态视频中提取功能语义的新范式;其次,构建过程中面临多对象交互场景的复杂标注难题,如同时记录刀具切割苹果时刀刃的切割功能与苹果被切割状态的同步变化;此外,数据采集需平衡任务指令的标准化与人类操作的自然性差异,包括参与者对同一任务的不同执行方式、空间布置习惯等变量控制。技术实现上还需解决多视角视频同步、小物体追踪遮挡、动作时序标注等工程挑战。
常用场景
经典使用场景
Wilhelm Tell Affordance Demonstrations Dataset 主要用于训练和评估机器人视觉感知系统,特别是在家庭环境中识别物体功能性的能力。该数据集通过第一人称和第三人称视角的视频序列,展示了人类执行日常任务的详细过程,为机器人学习如何识别和利用物体的功能提供了丰富的视觉素材。这些任务包括切割、盛放、倾倒等常见家庭活动,为机器人理解物体在特定情境下的功能性提供了直观的参考。
实际应用
在实际应用中,Wilhelm Tell数据集为家庭服务机器人的开发提供了重要支持。例如,机器人可以通过学习该数据集中的视频演示,掌握如何正确使用餐具、容器等家庭物品。这不仅提高了机器人在家庭环境中的操作能力,还为设计更加智能和自主的服务机器人奠定了基础。此外,该数据集还可用于教育领域,帮助机器人学习人类的行为模式,从而更好地与人类互动。
衍生相关工作
Wilhelm Tell数据集衍生了一系列经典研究工作,特别是在机器人视觉感知和行为学习领域。例如,基于该数据集的研究开发了多标签功能性映射算法(Multi-label affordance mapping)和视觉功能性接地方法(visual affordance grounding)。这些工作进一步推动了机器人对物体功能性的理解,并为复杂任务(如厨房操作和家庭清洁)的自动化提供了技术支持。此外,该数据集还被用于改进语义分割模型,使其能够更准确地识别物体的功能性部分。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作