five

MuRAL

收藏
arXiv2025-04-29 更新2025-05-08 收录
下载链接:
https://arxiv.org/pdf/2504.20505v1
下载链接
链接失效反馈
官方服务:
资源简介:
MuRAL是一个多居民环境传感器数据集,包含超过21小时的多用户传感器数据,采集自21个智能家居环境的会话。该数据集以细粒度的自然语言描述、居民身份和高级活动标签进行标注,所有这些都在动态的、现实的多居民环境中进行。我们使用最先进的语言模型对MuRAL进行了基准测试,以完成三个核心任务:主体分配、动作描述和活动分类。我们的结果表明,虽然LLM可以对环境数据进行丰富的语义解释,但当前模型在处理多用户歧义和不明确的传感器上下文方面仍然面临挑战。我们发布MuRAL以支持未来在智能环境中基于LLM的、可解释的和社会感知的活动理解研究。

MuRAL is a multi-resident environmental sensor dataset containing over 21 hours of multi-user sensor data collected from sessions across 21 smart home environments. This dataset is annotated with fine-grained natural language descriptions, resident identities, and high-level activity labels, with all data gathered in dynamic, real-world multi-resident environments. We benchmarked MuRAL using state-of-the-art language models to complete three core tasks: subject assignment, action description, and activity classification. Our results demonstrate that while LLMs can generate rich semantic interpretations of environmental data, current models still face challenges in handling multi-user ambiguity and ambiguous sensor contexts. We release MuRAL to support future research on LLM-based, explainable, and socially-aware activity understanding in smart environments.
提供机构:
法国格勒诺布尔大学阿尔卑斯分校, 法国国家科学研究中心, 法国格勒诺布尔理工学院, 法国信息与系统实验室
创建时间:
2025-04-29
搜集汇总
数据集介绍
main_image_url
构建方式
MuRAL数据集的构建采用了多居民智能家居环境下的自然活动采集方法,通过在DOMUS智能公寓测试平台部署23种环境传感器(包括红外运动传感器、磁接触传感器和智能插座),记录了21个会话中1-4名居民的真实互动数据。数据采集过程强调生态效度,仅提供基本情境框架(如家庭角色、时间段),允许参与者根据习惯自由活动,并通过视频记录辅助后续标注。标注流程采用单标注者策略,为每个传感器事件分配居民标识符,并生成细粒度的自然语言动作描述和高层次活动标签,确保语义丰富性和标注一致性。
使用方法
MuRAL支持三类核心任务范式:基于事件块的居民身份分配(10事件/块)、动作描述生成(JSON格式输入)和活动分类(分离后的居民事件流分析)。基准实验采用两阶段LLM流程,首阶段完成身份-动作联合推理,次阶段进行活动归类。评估时需注意动态身份映射算法(处理匿名标签对齐)和余弦相似度度量(用于动作描述评估)。使用建议包括:利用会话级上下文描述增强推理、注意卧室区域传感器缺失的限制,以及通过事件离散化处理(如"电视开关"阈值)提升语义解析精度。
背景与挑战
背景概述
MuRAL数据集由法国Orange创新机构与格勒诺布尔阿尔卑斯大学的研究团队于2025年联合发布,旨在填补多居民智能家居环境中基于环境传感器的人类活动识别(HAR)研究空白。该数据集在DOMUS智能公寓测试平台采集,包含21个会话、超过21小时的多用户传感器数据,创新性地采用自然语言细粒度标注,涵盖居民身份、动作描述及高层活动标签三大维度。相较于传统数据集CASAS、ARAS等,MuRAL通过动态场景设计(1-4名居民实时交互)和语义最大化原则(传感器事件与动作的精确映射),为大型语言模型(LLMs)提供了探索上下文推理与零样本学习的理想平台,推动了可解释性活动理解系统的研究进程。
当前挑战
领域挑战体现在三方面:1) 多居民歧义消解需处理传感器事件的动态身份分配问题,如红外传感器同时响应多人动作;2) 低粒度传感器数据(如门磁开关状态)与高层语义活动(如"准备晚餐")的映射存在显著语义鸿沟;3) 真实场景中非仪器化活动(如使用个人电脑)因缺乏专用传感器导致识别盲区。构建挑战包括:1) 自然语言标注需平衡语义丰富性与标注一致性,单标注者模式虽保证一致性却可能引入主观偏差;2) 时空分离性设计(如1Hz运动传感器采样)虽提升数据清晰度,但增加了设备部署密度与成本;3) 隐私保护要求导致卧室活动数据缺失,限制了全屋活动链路的完整性分析。
常用场景
经典使用场景
MuRAL数据集在智能家居环境中的人体活动识别(HAR)研究中具有重要应用价值。其多居民、多传感器的数据采集方式,结合自然语言标注,为研究者提供了一个高度逼真的实验平台。经典使用场景包括通过环境传感器数据(如红外运动传感器、磁接触传感器等)识别居民日常活动,如烹饪、用餐、休息等。数据集特别适用于探索大型语言模型(LLMs)在零样本或少样本学习中的表现,以及多居民场景下的活动去歧义和语义推理任务。
解决学术问题
MuRAL数据集解决了传统环境传感器数据集在LLM时代面临的三大核心问题:上下文信息不足、环境复杂性低以及标注粒度粗糙。通过提供细粒度的自然语言描述、动态多居民交互场景以及丰富的会话级上下文注释,该数据集支持研究者探索LLM在活动识别中的语义推理能力。其意义在于填补了现有数据集(如CASAS、ARAS和MARBLE)无法满足LLM需求的技术空白,为开发可解释、社会感知的智能家居系统奠定了基础。
实际应用
在实际应用中,MuRAL数据集可支持智能家居系统的多项功能开发,例如健康监护(通过活动模式检测异常行为)、能源管理(优化家电使用)和安全监控(识别可疑活动)。其自然语言标注特性使得系统能够生成人类可读的活动报告,增强用户信任。此外,数据集对多居民协作活动的捕捉能力,为开发家庭社交互动分析工具提供了可能,例如识别共同用餐或娱乐场景以促进家庭成员间的联系。
数据集最近研究
最新研究方向
MuRAL数据集作为首个结合自然语言标注的多居民环境传感器数据集,正推动智能家居领域人机交互研究的前沿发展。其核心价值在于通过细粒度语义标注(如居民动作描述、场景上下文)和动态多用户场景设计,解决了传统数据集在LLM时代面临的语境贫乏、环境复杂度不足等瓶颈问题。当前研究热点集中在三大方向:基于LLM的多用户行为消歧算法开发,通过会话级上下文理解提升活动推理的准确性;探索零样本学习在环境传感器数据中的泛化能力,特别是针对未见过的新型家庭布局和居民交互模式;以及开发可解释性框架,将低维传感器事件转化为人类可理解的日常活动叙事。该数据集的影响已辐射至智慧医疗领域,为阿尔茨海默症患者日常行为监测提供了更符合隐私保护的解决方案,同时其多模态扩展潜力也引发了学术界对'传感器-语言'联合建模的广泛讨论。
相关研究论文
  • 1
    MuRAL: A Multi-Resident Ambient Sensor Dataset Annotated with Natural Language for Activities of Daily Living法国格勒诺布尔大学阿尔卑斯分校, 法国国家科学研究中心, 法国格勒诺布尔理工学院, 法国信息与系统实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作