EPFL-Smart-Kitchen-30

github2025-06-11 更新2025-06-12 收录

下载链接：

https://github.com/amathislab/EPFL-Smart-Kitchen

下载链接

链接失效反馈

官方服务：

资源简介：

EPFL-Smart-Kitchen-30数据集是一个多视角动作数据集，包含同步的外中心、内中心、深度、惯性测量单元（IMUs）、眼动、身体和手部运动学数据，涵盖了16名受试者烹饪四种不同食谱的29.7小时数据。动作序列密集标注，每分钟有33.78个动作片段。该数据集旨在通过四个基准测试推动行为理解和建模。

The EPFL-Smart-Kitchen-30 dataset is a multi-view action dataset that includes synchronized exocentric, endocentric, depth, inertial measurement unit (IMU), eye-tracking, body, and hand kinematics data. It encompasses 29.7 hours of data collected from 16 participants cooking four different recipes. The action sequences are densely annotated with 33.78 action segments per minute. The dataset is designed to advance behavior understanding and modeling through four benchmark tests.

创建时间：

2025-05-29

原始信息汇总

EPFL-Smart-Kitchen-30 数据集概述

数据集简介

数据集名称：EPFL-Smart-Kitchen-30
环境：厨房环境
采集方式：非侵入式动作捕捉平台
采集设备：
- 9个静态RGB-D摄像头
- 惯性测量单元（IMUs）
- 1个头戴式HoloLens~2头显

数据内容

数据类型：
- 3D手部、身体和眼部运动数据
- 同步的外中心、自我中心、深度、IMUs、眼动追踪、身体和手部运动学数据
数据规模：
- 29.7小时
- 16名受试者
- 4种不同食谱
标注信息：
- 密集标注的动作片段
- 每分钟33.78个动作片段

数据用途

四个基准测试：
1. 视觉-语言基准测试
2. 语义文本到动作生成基准测试
3. 多模态动作识别基准测试
4. 基于姿势的动作分割基准测试

数据获取

数据存储位置：
- 标注/姿势数据：https://zenodo.org/records/15551913
- 视频数据：https://zenodo.org/records/15535461
- Huggingface上的Lemonade（具体链接未提供）

参考文献

预印本论文：https://arxiv.org/abs/2506.01608
BibTeX引用格式： bibtex @article{bonnetto2025epfl, title={EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models}, author={Bonnetto, Andy and Qi, Haozhe and Leong, Franklin and Tashkovska, Matea and Rad, Mahdi and Shokur, Solaiman and Hummel, Friedhelm and Micera, Silvestro and Pollefeys, Marc and Mathis, Alexander}, journal={arXiv preprint arXiv:2506.01608}, year={2025} }

致谢

感谢EPFL计算神经科学与AI Mathis Group成员的反馈
资助方：
- EPFL
- 瑞士SNF基金（320030-227871）
- 微软瑞士联合研究中心
- Boehringer Ingelheim Fonds博士奖学金（H.Q.）
- Brain Mind Institute（硬件资金）
- Neuro-X Institute（服务资金）

搜集汇总

数据集介绍

构建方式

在行为理解研究领域，厨房环境因其丰富的日常活动而成为评估人类运动和认知功能的理想场景。EPFL-Smart-Kitchen-30数据集通过非侵入式动作捕捉平台构建，采用九台静态RGB-D相机、惯性测量单元（IMUs）和一台HoloLens~2头戴设备，精确记录了16名受试者在烹饪四种不同食谱时的三维手部、身体和眼部运动数据。数据集包含29.7小时的多视角同步数据，涵盖外中心视角、自我中心视角、深度信息、IMU数据、视线追踪以及身体和手部运动学信息，并以每分钟33.78个动作片段的高密度标注方式对动作序列进行了细致标注。

特点

该数据集以其多模态特性脱颖而出，融合了视觉、语言和运动学等多维度信息，为行为理解研究提供了全面而精细的数据支持。其显著特点包括高密度的动作标注、多视角同步数据采集以及丰富的模态组合，这些特性使其成为推动行为理解和建模研究的宝贵资源。数据集特别设计了四个基准任务，涵盖视觉语言理解、语义文本到动作生成、多模态动作识别以及基于姿态的动作分割，为研究者提供了多样化的评估平台。

使用方法

研究者可通过Zenodo平台获取数据集的标注和姿态数据以及视频资料，便于开展各类行为分析研究。数据集支持多种应用场景，包括但不限于动作识别算法开发、多模态学习模型训练以及人机交互系统设计。借助Huggingface上提供的Lemonade工具，用户可以便捷地访问和处理数据集，加速研究进程。数据集的设计充分考虑了易用性和扩展性，为计算机视觉、人工智能和神经科学等领域的研究者提供了强有力的数据支撑。

背景与挑战

背景概述

随着人工智能与计算神经科学的深度融合，对人类行为理解的研究逐渐转向复杂自然场景下的多模态数据采集。EPFL-Smart-Kitchen-30数据集由瑞士洛桑联邦理工学院Mathis计算神经科学与人工智能团队于2025年发布，旨在构建厨房环境中人类烹饪行为的多维度表征体系。该数据集通过九台静态RGB-D相机、惯性测量单元及混合现实头显设备，同步捕获16名受试者烹饪过程中的三维肢体运动、眼动轨迹等多模态信号，累计时长29.7小时。其创新性体现在首次将烹饪动作分割标注密度提升至每分钟33.78个片段，为计算机视觉与运动神经科学的交叉研究提供了基准平台。数据集提出的四个基准任务——包括视觉语言关联、语义动作生成等——显著推动了行为建模领域从单一模态分析向多模态协同理解的范式转变。

当前挑战

在解决复杂场景行为理解这一核心问题上，数据集面临多源异构数据时空对齐的精度挑战，特别是IMU与光学捕捉系统的毫米级同步难题。构建过程中需克服混合现实头显的视野遮挡对眼动数据质量的影响，以及烹饪动作快速转换导致的动作边界模糊问题。多视角RGB-D数据的三维重建受限于厨房环境的反光表面与频繁遮挡，而33.78段/分钟的动作标注密度对标注者专业认知提出极高要求。这些技术瓶颈使得该数据集成为检验多模态融合算法鲁棒性的重要试金石。

常用场景

经典使用场景

在行为理解与多模态学习领域，EPFL-Smart-Kitchen-30数据集通过厨房环境中的复杂烹饪任务，为研究人类运动与认知功能提供了独特视角。其多视角动作捕捉系统结合了外中心与自我中心视角，深度信息及惯性测量单元数据，特别适合探索动作分割、跨模态对齐等核心问题。该数据集通过四道菜谱的标准化流程，实现了对精细动作序列的高密度标注，为行为建模建立了新的基准。

实际应用

在实际应用层面，该数据集支撑了智能厨房系统的开发与评估。基于其丰富的运动学标注，可优化动作识别算法以监测老年人烹饪安全；眼动数据则助力厨房设备的人体工学设计。工业界已利用该数据训练服务机器人，使其理解非结构化环境中的复杂任务流程，展现了从学术研究到产业落地的完整价值链。

衍生相关工作

该数据集催生了多模态行为建模的系列创新成果。在计算机视觉领域，衍生出基于时空图卷积的动作分割新方法；神经科学界利用其构建了烹饪任务的认知计算模型。特别值得注意的是，其视觉-语言基准推动了跨模态表示学习的发展，相关成果已应用于具身智能系统的指令理解模块。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集