WAGIBench
收藏arXiv2025-10-26 更新2025-10-29 收录
下载链接:
https://github.com/facebookresearch/WAGIBench/
下载链接
链接失效反馈官方服务:
资源简介:
WAGIBench是一个用于评估辅助可穿戴设备中目标推断性能的基准数据集。该数据集由348名参与者生成,包含3,477个视频片段(共计29小时),每个片段都附带有数字环境和参考目标。数据集包含了四种模态:视觉、音频、数字和纵向。该数据集旨在为辅助可穿戴设备提供一个强大的基准,用于测量目标推断模块的性能,帮助可穿戴设备理解用户的需求并执行相应的动作。
提供机构:
Meta Reality Labs, Meta FAIR
创建时间:
2025-10-26
搜集汇总
数据集介绍

构建方式
在可穿戴智能体研究领域,构建高质量多模态数据集对推动目标推断能力发展至关重要。WAGIBench通过脚本化交互方式系统采集了涵盖视觉、音频、数字和纵向四个模态的生态效度数据,由348名参与者在165种预设情境中生成3,477段视频记录。为确保数据质量,采用三重评分机制对视频内容进行严格筛选,仅保留至少两位评分者认可且变量标注一致性超过0.5的样本,最终构建出总时长29小时的多模态语料库。
特点
该数据集在模态覆盖广度与数据质量深度上具有显著优势。其核心特征体现在多模态耦合设计,通过韦恩图明确标注不同情境下各模态的相关性组合,支持精准的模态消融实验。数据规模方面,不仅包含30.4秒平均时长的视觉数据,还涵盖7.2秒语音片段、8.7KB数字状态及147.8秒纵向历史记录。特别值得关注的是其数字上下文采用大语言模型生成技术,模拟七大常用应用的内部状态,既保证隐私安全又维持语义连贯性。
使用方法
研究者可通过标准化评估流程利用该数据集进行目标推断任务验证。基准测试提供判别式与生成式两种评估范式:前者采用多选题形式,通过余弦相似度分层采样构建具有挑战性的干扰选项;后者引入LLM评判机制,结合参考目标与脚本线索对生成内容进行“非常相关/临界相关/不相关”三级评分。实验时需将32帧视频采样与Whisper语音转写结果共同输入视觉语言模型,通过模态组合对比分析模型在特定子集上的表现差异。
背景与挑战
背景概述
WAGIBench数据集由Meta Reality Labs与Meta FAIR于2025年联合创建,旨在解决可穿戴辅助代理领域中的目标推断核心问题。该数据集聚焦于通过多模态情境观察(包括视觉、音频、数字和纵向上下文)推断用户目标,从而减少用户与代理的交互负担。其创新性在于首次整合了四种模态数据,覆盖348名参与者的3,477段录制视频,总计29小时,显著推动了可穿戴代理在生态效度和个性化服务方面的研究进展。
当前挑战
在领域问题层面,WAGIBench致力于解决可穿戴代理目标推断的复杂性挑战,包括多模态数据融合、上下文噪声过滤以及个性化历史建模。构建过程中,数据集面临脚本设计的生态有效性平衡、多模态数据同步采集的工程难题,以及隐私保护下数字上下文合成的高保真要求。此外,确保纵向历史数据的连贯性和评估生成式目标的开放性,进一步增加了数据集的构建难度。
常用场景
经典使用场景
在可穿戴智能代理领域,WAGIBench作为首个多模态自我中心目标推断基准,其经典应用场景聚焦于通过视觉、音频、数字及长期上下文等多维度数据,模拟真实环境中用户意图的自动识别过程。例如当用户佩戴智能眼镜寻找遗失物品时,系统能通过分析环境视频与历史行为模式,主动推断出“定位钥匙位置”这一潜在需求。
解决学术问题
该数据集有效解决了可穿戴计算中目标推断任务的生态效度缺失问题,通过精心设计的脚本化数据收集机制,为多模态语言模型提供了标准化评估框架。其意义在于突破了传统数据集依赖大语言模型重新标注的局限,通过引入真实用户行为轨迹与精准标注的目标标签,显著提升了模型对复杂情境下人类意图的建模能力,推动了具身智能在认知推理方向的发展。
衍生相关工作
该数据集催生了多模态推理模型的系列创新研究,例如基于视觉-语言架构的个性化目标预测框架、面向边缘设备的轻量化推断模型等。相关经典工作包括采用社会语境建模的长期行为分析系统、结合数字痕迹与视觉线索的混合推理网络,以及针对低信噪比模态的注意力增强机制,这些衍生研究共同推动了可穿戴智能代理在现实场景中的实用化进程。
以上内容由遇见数据集搜集并总结生成



