CSI-Bench
收藏arXiv2025-05-28 更新2025-11-28 收录
下载链接:
https://www.kaggle.com/datasets/df9d680b62e1c663333fe8739e34030509beccecd8b5561ebb367f8f5d4a1e05
下载链接
链接失效反馈官方服务:
资源简介:
CSI-Bench是一个大规模、自然场景的基准数据集,使用商用WiFi边缘设备在26个不同的室内环境中收集了35个真实用户的数据。数据集覆盖了461小时的CSI数据,包括跌倒检测、呼吸监测、定位和运动源识别等特定任务的子数据集,以及一个多任务数据集,该数据集具有用户身份、活动和接近度的联合标注。CSI-Bench为健壮且可推广的模型的发展提供了标准化的评估分割和基线结果,并旨在为健康和更广泛的人本应用中的可扩展、隐私保护的WiFi传感系统提供基础。
CSI-Bench is a large-scale, natural-scenario benchmark dataset that collected data from 35 real users across 26 distinct indoor environments using commercial WiFi edge devices. The dataset encompasses 461 hours of CSI data, including task-specific subdatasets for applications such as fall detection, respiration monitoring, localization, and motion source recognition, as well as a multi-task dataset with joint annotations of user identity, activity, and proximity. CSI-Bench provides standardized evaluation splits and baseline results for the development of robust and generalizable models, and aims to lay the foundation for scalable, privacy-preserving WiFi sensing systems in healthcare and broader human-centric applications.
提供机构:
Origin Research
创建时间:
2025-05-28
搜集汇总
数据集介绍

构建方式
在无线感知领域,构建能够反映真实世界复杂性的数据集对于推动技术实用化至关重要。CSI-Bench的构建过程依托商业WiFi边缘设备,在26个多样化的室内环境中,通过35名真实用户的自然活动,采集了超过461小时的有效信道状态信息数据。数据采集采用连续记录模式,覆盖了包括公寓、多房间住宅、办公室及公共室内空间等多种场景,并整合了来自高通、博通、乐鑫、联发科和恩智浦等主流芯片组的硬件异构性。系统通过路由器协调数据收集,利用云端基础设施和轻量级标注工具,实现了在自然干扰和背景网络流量下的无干预数据捕获,确保了数据集的真实性与规模。
特点
CSI-Bench的核心特点在于其大规模、真实世界的覆盖范围以及多任务协同标注的设计。数据集不仅提供了针对跌倒检测、呼吸监测、定位和运动源识别等任务的专用数据子集,还包含了一个共同标注的多任务数据集,其中联合标注了用户身份、活动和接近度信息。这种设计支持从单任务学习到多任务学习的无缝过渡,为模型在资源受限的边缘设备上实现高效推理奠定了基础。此外,数据集引入了标准化的评估划分和基线结果,涵盖了从易到难的难度层级以及跨用户、跨环境、跨设备的域外评估设置,为模型的鲁棒性和泛化能力提供了严谨的测试平台。
使用方法
使用CSI-Bench进行研究时,可依据具体目标选择单任务或多任务学习框架。对于单任务研究,如跌倒检测或呼吸监测,可直接利用相应的专用数据集,按照提供的70/15/15划分进行训练、验证和测试,并参考难度层级评估模型性能。对于旨在开发通用感知模型的研究,则应使用共同标注的多任务数据集,采用共享主干网络结合任务特定适配器的架构进行联合训练,以探索跨任务的知识共享与参数效率。在评估阶段,建议除标准精度指标外,重点关注域外泛化性能,特别是在交叉设备等挑战性设置下的表现,以全面衡量模型在真实部署环境中的实用性。
背景与挑战
背景概述
在无线感知领域,WiFi信道状态信息(CSI)作为一种非接触式、隐私保护的人类活动监测模态,近年来展现出巨大潜力。2025年,由Origin Research的研究人员Guozhen Zhu、Yuqian Hu、Weihang Gao、Wei-Hsiang Wang、Beibei Wang和K. J. Ray Liu共同构建的CSI-Bench数据集应运而生,旨在解决现有WiFi感知系统在真实场景中泛化能力不足的核心问题。该数据集通过商用WiFi边缘设备,在26个多样化的室内环境中采集了超过461小时的有效数据,涵盖了跌倒检测、呼吸监测、定位和运动源识别等多个任务,并首次提供了带有联合标注的多任务数据集。CSI-Bench以其大规模、真实世界覆盖和标准化评估协议,为可扩展、隐私保护的WiFi感知系统在健康监测等以人为本的应用中奠定了坚实基础。
当前挑战
CSI-Bench所应对的领域挑战在于提升WiFi感知在复杂真实环境中的泛化性与鲁棒性。传统数据集多在受控实验室环境中采集,硬件配置单一、数据记录碎片化,导致模型难以适应新用户、新设备或新环境。构建过程中的挑战则体现在多方面:首先,需在自然条件下连续采集数据,以捕捉真实信号变异,包括非视距传播、背景干扰和环境噪声;其次,需协调多种商用WiFi芯片组(如Qualcomm、Broadcom、Espressif等)的数据同步与格式统一,以处理硬件异构性带来的子载波粒度、天线配置和带宽差异;此外,还需设计高效的数据预处理流程,包括幅度提取、数据分割和归一化,以消除相位不稳定性和自动增益控制的影响,确保数据质量与一致性。
常用场景
经典使用场景
在无线感知研究领域,CSI-Bench数据集为多任务WiFi感知提供了经典的应用场景。该数据集通过商业WiFi边缘设备在26个真实室内环境中采集了超过461小时的通道状态信息数据,涵盖了跌倒检测、呼吸监测、定位和运动源识别等核心任务。其大规模、多样化的数据特性使得研究者能够开发并评估在复杂现实条件下具有鲁棒性的感知模型,特别是在非视距传播、硬件异构性和环境干扰等挑战性场景中,为模型泛化能力提供了坚实的验证基础。
实际应用
在实际应用层面,CSI-Bench数据集为智能健康监测和家庭环境感知提供了关键支撑。基于其采集的跌倒检测和呼吸监测数据,可开发非侵入式、持续运行的老年看护系统,在保护用户隐私的同时实现及时预警。室内定位与运动源识别功能则可用于智能家居的场景自适应控制,如根据人员位置调节照明或识别宠物活动以触发安防机制。这些应用充分利用了现有WiFi基础设施,避免了额外传感器部署,显著降低了系统成本与复杂度。
衍生相关工作
围绕CSI-Bench数据集,已衍生出多项经典研究工作。在模型架构方面,研究者基于其多任务特性开发了共享主干网络与轻量级适配器结合的联合学习框架,显著提升了参数效率。针对硬件异构性挑战,出现了跨设备域适应方法,通过特征对齐技术缓解性能衰减。此外,该数据集还催生了面向真实环境噪声鲁棒性的信号预处理算法,以及基于难度分层的评估协议,为WiFi感知领域的标准化测评与比较建立了新范式。
以上内容由遇见数据集搜集并总结生成



