EPFL-Smart-Kitchen-30
收藏arXiv2025-06-02 更新2025-06-05 收录
下载链接:
https://github.com/amathislab/EPFL-SmartKitchen
下载链接
链接失效反馈官方服务:
资源简介:
EPFL-Smart-Kitchen-30数据集是一个包含密集标注的烹饪行为数据集,由洛桑联邦理工学院(EPFL)收集。该数据集在厨房环境中使用非侵入性运动捕捉平台,通过九个静态RGB-D摄像头、惯性测量单元(IMU)和一个头戴式HoloLens 2耳机捕捉了3D手、身体和眼球运动。该数据集是一个多视图动作数据集,具有同步的外心、内心、深度、IMU、眼球注视、身体和手动力学,涵盖了16名受试者烹饪四种不同食谱的29.7小时。动作序列被密集地标注,每分钟有33.78个动作段。利用这个多模态数据集,我们提出了四个基准,以通过1)视觉语言基准、2)语义文本到运动生成基准、3)多模态动作识别基准、4)基于姿态的动作分割基准,来推动行为理解和建模。我们期望EPFL-Smart-Kitchen-30数据集为更好的方法以及理解生态有效的自然人类行为本质的见解铺平道路。
The EPFL-Smart-Kitchen-30 dataset is a densely annotated cooking behavior dataset collected by École Polytechnique Fédérale de Lausanne (EPFL). Captured in a kitchen environment using a non-invasive motion capture platform, this dataset records 3D hand, body, and eye movements via nine static RGB-D cameras, inertial measurement units (IMU), and a head-mounted HoloLens 2 headset. This is a multi-view action dataset with synchronized camera extrinsics, intrinsics, depth data, IMU readings, eye gaze, body and hand dynamics, spanning 29.7 hours of cooking sessions from 16 participants executing four distinct recipes. Action sequences are densely annotated, with 33.78 action segments per minute. Leveraging this multimodal dataset, we introduce four benchmark tasks to advance behavior understanding and modeling: 1) vision-language benchmarking, 2) semantic text-to-motion generation, 3) multimodal action recognition, and 4) pose-based action segmentation. We anticipate that the EPFL-Smart-Kitchen-30 dataset will pave the way for improved methods and insights into the nature of ecologically valid natural human behavior.
提供机构:
洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne)
创建时间:
2025-06-02
搜集汇总
数据集介绍

构建方式
EPFL-Smart-Kitchen-30数据集通过多模态传感器在厨房环境中捕捉人类烹饪行为,构建了一个全面且精细的行为数据库。数据采集使用了九个静态RGB-D相机、惯性测量单元(IMU)和一个头戴式HoloLens 2设备,同步记录了3D手部、身体和眼球的运动轨迹。数据集包含16名受试者烹饪四种不同食谱的29.7小时多视角视频,涵盖了从食谱阅读到清理的全过程。动作序列通过密集标注,每分钟平均标注33.78个动作片段,确保了数据的丰富性和精确性。
特点
EPFL-Smart-Kitchen-30数据集以其多模态、高密度标注和生态效度著称。数据集不仅提供了同步的多视角视频(包括自我中心和他者视角),还整合了深度图像、IMU数据、眼球注视轨迹以及3D身体和手部姿态信息。其标注系统定义了33个动词和79个名词,组合成763个细粒度动作,并辅以六个粗粒度活动类别,形成了层次化的行为描述。此外,数据集的规模和多模态特性使其成为研究复杂人类行为的理想资源。
使用方法
EPFL-Smart-Kitchen-30数据集支持多种行为理解和建模任务。研究者可利用其多模态数据开发视频-语言模型、动作识别和分割算法,以及基于语义的文本到动作生成系统。数据集还提供了四个基准测试,包括视觉语言问答、动作分割、动作识别和全身运动生成,为评估模型性能提供了标准化平台。使用该数据集时,建议结合其多模态特性,例如通过融合视觉、姿态和眼球追踪数据,以提升模型在细粒度行为分析中的表现。
背景与挑战
背景概述
EPFL-Smart-Kitchen-30是由瑞士洛桑联邦理工学院(EPFL)联合微软等机构于2025年推出的多模态烹饪行为数据集,旨在为人类行为理解研究提供生态效度更高的数据支持。该数据集通过9台RGB-D相机、惯性测量单元和混合现实头显,同步采集了16名受试者在厨房环境中烹饪4种食谱时的全身运动、手部精细动作、眼动轨迹等多维度数据,总时长29.7小时。其核心创新在于首次实现了外中心与自我中心视角的时空对齐,并提供了每分钟33.78个动作片段的高密度标注,包含763个细粒度动作类别。该数据集推动了计算机视觉、语言模型与运动生成模型的融合研究,特别在具身智能和康复工程领域具有重要价值。
当前挑战
该数据集主要面临三重挑战:在领域问题层面,现有行为理解数据集存在模态割裂问题,难以同步建模手部精细操作、全身运动与环境交互的复杂关系;在标注层面,烹饪场景中并发动作的时序重叠(如持刀切割时同时稳定食材)导致传统层级标注体系失效,需设计新型动词-名词组合标注范式;在技术实现层面,多视角相机与头显设备的时空校准误差需控制在毫米级,而烹饪工具遮挡导致的手部运动捕捉精度不足,最终通过融合RGB-D特征与惯性测量数据将平均关节定位误差降至6.22cm。
常用场景
经典使用场景
EPFL-Smart-Kitchen-30数据集在计算机视觉和人工智能领域具有广泛的应用价值,尤其在多模态行为理解方面表现突出。该数据集通过捕捉真实烹饪场景中的多视角视频、深度图像、惯性测量单元(IMU)数据、眼动追踪以及三维身体和手部运动数据,为研究者提供了丰富的多模态信息。其经典使用场景包括行为识别、动作分割、视觉语言模型评估以及运动生成等任务。数据集中的密集标注和层次化动作定义使其成为研究复杂人类行为的理想选择。
解决学术问题
EPFL-Smart-Kitchen-30数据集解决了当前行为分析数据集中的碎片化问题。传统数据集往往只关注单一模态或特定行为,而该数据集通过整合多模态数据(如RGB-D视频、IMU、眼动追踪和三维运动捕捉),提供了更全面的行为表征。此外,数据集中的密集动作标注(每分钟33.78个动作片段)和层次化活动定义(763个细粒度动作和6个粗粒度活动)为研究人类行为的时序结构和上下文关系提供了重要支持。这些特性使得该数据集能够有效推动行为理解、动作预测和跨模态学习等领域的研究进展。
衍生相关工作
EPFL-Smart-Kitchen-30数据集已经衍生出多项重要研究工作。基于该数据集提出的Lemonade基准测试为评估视觉语言模型的行为理解能力提供了新标准。在动作识别方面,研究者开发了多模态掩码自编码器(MAE)模型,有效整合了视频、姿态和眼动数据。在动作分割领域,该数据集促进了时序卷积网络(TCN)和Transformer架构的改进。此外,数据集还启发了全身体运动生成研究,推动了文本到运动生成模型的发展。这些工作不仅验证了数据集的科研价值,也为未来多模态行为分析研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



