LEMMA

Name: LEMMA
Creator: 加州大学洛杉矶分校视觉、认知、学习与自主性中心(VCLA)
Published: 2020-07-31 08:13:54
License: 暂无描述

arXiv2020-07-31 更新2024-06-21 收录

下载链接：

https://sites.google.com/view/lemma-activity

下载链接

链接失效反馈

官方服务：

资源简介：

LEMMA数据集由加州大学洛杉矶分校视觉、认知、学习与自主性中心创建，专注于多代理多任务日常活动的学习。数据集包含324个活动，涵盖单代理单任务、单代理多任务、多代理单任务和多代理多任务四种场景。通过精心设计的设置，LEMMA数据集密集标注了原子动作与人类-物体交互，以提供日常活动的构成性、调度性和分配性的基准真相。此外，LEMMA还设计了复合动作识别和动作/任务预测基准，以衡量对复杂目标导向活动的理解能力和时间推理能力。该数据集旨在推动机器视觉社区对目标导向人类活动的研究，并进一步探索现实世界中的任务调度和分配。

The LEMMA dataset was created by the Center for Vision, Cognition, Learning and Autonomy at the University of California, Los Angeles (UCLA), focusing on the learning of multi-agent and multi-task daily activities. The dataset comprises 324 activities, covering four scenarios: single-agent single-task, single-agent multi-task, multi-agent single-task, and multi-agent multi-task. Through carefully designed experimental settings, the LEMMA dataset densely annotates atomic actions and human-object interactions, providing ground truth for the compositional, scheduling, and distributive characteristics of daily activities. Additionally, the LEMMA dataset also establishes benchmarks for composite action recognition and action/task prediction, aiming to evaluate the ability to understand complex goal-directed activities and perform temporal reasoning. This dataset is intended to advance research on goal-directed human activities in the computer vision community, and further explore task scheduling and distribution in real-world scenarios.

提供机构：

加州大学洛杉矶分校视觉、认知、学习与自主性中心(VCLA)

创建时间：

2020-07-31

搜集汇总

数据集介绍

构建方式

在人类活动理解的研究领域，LEMMA数据集通过精心设计的实验场景构建，旨在捕捉多智能体多任务交互的复杂性。数据采集过程在七个不同的Airbnb住宅中进行，由八名参与者在十四个独特的厨房和客厅环境中执行日常任务。采用两台Kinect Azure相机记录全局场景的RGB-D视频，同时每位参与者佩戴头戴式GoPro相机以获取第一人称视角的细节动作。所有视角的视频通过后处理同步至24帧每秒，确保了时间对齐。通过亚马逊众包平台对视频中的人类边界框、动作片段及语义标签进行密集标注，动作标签采用动词-名词组合形式，以体现动作的组合性。数据涵盖单智能体单任务、单智能体多任务、多智能体单任务及多智能体多任务四种场景，共包含324个活动样本，总时长约10.1小时，生成了约460万帧图像。

特点

LEMMA数据集的核心特点在于其多视角、多智能体与多任务的集成设计。数据集同时提供第三人称视角和第一人称视角的视频记录，能够全面捕捉活动细节并支持跨视角分析。通过涵盖四种不同复杂度的交互场景，数据集突出了任务调度与分配的挑战，特别是在多智能体协作中仅一方知晓任务指令的设置，模拟了人机协作的真实情境。标注方面，数据集采用组合性动作标签，包含24个动词类和64个名词类，形成862种原子动作组合，并提供了每个动作所属任务的标注。这种设计不仅支持动作识别，还便于研究动作的时序推理与目标导向行为。数据集的规模与现有先进基准相当，包含约460万帧图像和11781个动作片段，为复杂人类活动理解提供了丰富资源。

使用方法

LEMMA数据集的使用主要围绕两个基准任务展开：组合动作识别以及动作与任务预测。在组合动作识别任务中，模型需要从视频中识别出并发的原子动作及其语义位置（如交互对象、工具或目标位置），评估指标包括动词、名词及组合动作的平均精度、召回率和F1分数。动作与任务预测任务则要求模型基于历史视频片段预测下一动作或任务，特别关注多智能体场景中的协作与调度能力。数据集已按比例划分为训练集和测试集，并提供了预处理的视频帧、标注文件及工具代码。研究人员可利用第一人称和第三人称视角的RGB-D数据，结合标注的动作边界框和语义信息，开发或评估模型在复杂活动理解、时序推理及多智能体交互方面的性能。数据集的多样化场景设计鼓励模型从简单任务向复杂任务泛化，推动对真实世界人类行为的深入探索。

背景与挑战

背景概述

在人工智能与计算机视觉领域，理解人类行为一直是核心挑战之一。LEMMA数据集由加州大学洛杉矶分校视觉、认知、学习与自主中心于2020年推出，旨在填补先前研究在目标导向、多任务并行及多智能体协作等日常活动关键维度上的空白。该数据集通过精心设计的厨房与客厅场景，记录了单智能体单任务、单智能体多任务、多智能体单任务及多智能体多任务四种情境下的活动，并提供了密集的原子动作标注，涵盖动词-名词组合的语义结构。其创新性在于融合了第三人称与第一人称视角视频，并引入动作组合性与任务调度的标注，为复杂人类活动的理解提供了结构化基础，推动了具身智能与跨领域研究的发展。

当前挑战

LEMMA数据集致力于解决目标导向多智能体多任务活动的理解问题，其核心挑战在于建模人类活动的组合性、并发性与协作性。具体而言，该领域需克服原子动作的语义组合识别，例如准确解析“用刀将西瓜放入榨汁机”等动词-名词结构的复杂关系；同时需应对多任务并行下的时序推理，如预测智能体在协作中的任务分配与调度。在构建过程中，挑战包括多视角视频的同步与标注一致性，尤其是在遮挡频繁的第三人称视角中保持动作边界的精确标注；此外，标注系统需处理自然语言描述固有的歧义性，例如“用水槽清洗杯子”与“用水清洗杯子”的语义统一，这要求设计精细的动词模式与名词词典以确保标注质量。

常用场景

经典使用场景

在计算机视觉与人工智能领域，理解人类日常活动一直是核心挑战之一。LEMMA数据集通过精心设计的厨房与客厅场景，捕捉多智能体执行多任务的复杂交互过程，其经典使用场景集中于对目标导向活动的分解与解析。研究者利用该数据集训练模型识别组合动作，例如“用刀切西瓜”或“用手将杯子放到桌上”，这些动作由动词-名词对构成，反映了人类与物体互动的语义层次。数据集的多视角视频（包括第一人称和第三人称视角）为模型提供了丰富的视觉线索，支持对并发任务调度与协作行为的深入分析。

实际应用

在实际应用层面，LEMMA数据集为智能体与机器人系统的开发提供了重要支撑。例如，在家庭服务机器人场景中，机器人需理解人类执行多任务时的意图，并协助完成如制作果汁、打扫房间等日常活动。数据集中的多智能体单任务设置模拟了人机协作情境，其中仅领导者知晓任务指令，助手需通过非语言信号推断并配合，这直接启发了机器人非语言交互与任务推断算法的研究。此外，数据集的组合动作标注有助于提升机器人对物体功能与使用方式的认知，促进其在真实环境中的操作能力。

衍生相关工作

围绕LEMMA数据集，学术界已衍生出一系列经典研究工作。这些工作主要集中于组合动作识别与动作/任务预测两大基准任务。例如，研究者基于I3D与SlowFast等3D-CNN架构，提出了多分支网络与序列推理模型，以提升对动词-名词组合结构的解析能力。在时序推理方面，长期特征库与多视角特征融合方法被用于建模多智能体协作中的任务调度与分配。这些工作不仅推动了活动理解模型的性能边界，还促进了跨学科研究，如将视觉感知与语言语义、机器人学及认知科学相结合，进一步拓展了数据集的学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集