BehavePassDB
收藏arXiv2022-10-04 更新2024-06-21 收录
下载链接:
https://github.com/BiDAlab/MobileB2C_BehavePassDB/
下载链接
链接失效反馈官方服务:
资源简介:
BehavePassDB是由马德里自治大学创建的一个公开数据库,专注于移动行为生物识别和基准评估。该数据集包含81名用户的数据,通过专门的移动应用程序在用户的设备上收集,模拟移动人机交互(HCI)的最常见方面。数据集不仅包括同一设备上不同用户的数据,还设计了标准实验协议和基准,供研究社区公平比较新方法与现有技术。BehavePassDB的应用领域主要在于解决移动设备上的连续认证问题,通过不断验证用户的生物特征,提供被动式的安全保护,无需用户执行特定的认证任务。
BehavePassDB is a public database developed by the Autonomous University of Madrid, focusing on mobile behavioral biometrics and benchmark evaluation. This dataset encompasses data from 81 users, which was collected on users' personal devices via a dedicated mobile application, simulating the most common aspects of mobile human-computer interaction (HCI). The dataset not only includes data from different users on the same device, but also provides standard experimental protocols and benchmarks to enable the research community to fairly compare new methods with state-of-the-art technologies. The primary application scope of BehavePassDB is to address the continuous authentication problem on mobile devices, where passive security protection is provided by continuously verifying users' biometric features without requiring users to perform specific authentication tasks.
提供机构:
马德里自治大学
创建时间:
2022-06-06
搜集汇总
数据集介绍

构建方式
BehavePassDB的构建基于一套精心设计的移动端数据采集流程,旨在模拟真实的人机交互场景。研究团队开发了一款专用Android应用程序,安装在81名受试者自有的智能手机上,在无监督环境下完成数据采集。采集过程分为四个独立会话,每个会话间隔至少24小时,以捕捉用户行为的日内变异。会话中设计了八项典型任务,涵盖图案解锁、文本输入、文本阅读、图库滑动、屏幕点击、手写签名、关键应用模拟及手机拾取动作,全面覆盖移动交互的核心行为。同时,系统同步采集来自触摸屏及14种背景传感器(如加速度计、陀螺仪、磁力计等)的多模态数据,形成高维时间序列信号。特别地,数据集包含两种冒用者场景:随机冒用(不同用户使用不同设备)和熟练冒用(冒用者在同一设备上模仿合法用户),后者在最后两个会话中实施,为评估设备偏差提供了独特视角。
特点
BehavePassDB的核心特点在于其精心设计的结构以区分用户身份与设备身份。数据集明确划分为训练集(51人)、验证集(10人)和评估集(20人),其中验证与评估集均包含同一设备上不同用户的熟练冒用数据,这是现有公开数据库中罕见的设置。多模态特性突出,融合了触摸动力学与15种背景传感器信号,为研究多模态融合提供了丰富的特征空间。数据采集任务高度结构化,从简单的点击到复杂的签名和关键应用模拟,涵盖了从粗粒度到细粒度的行为模式。此外,数据集考虑了键盘类型的差异(自定义键盘与固定键盘),以及任务间的时序对齐,使得跨任务、跨模态的联合分析成为可能。这种设计不仅支持传统的随机冒用评估,更能深入探究模型是否真正学习到了用户特异性特征,而非设备相关的伪影。
使用方法
BehavePassDB的使用遵循一套标准化的实验协议,以确保结果的可比性与可复现性。研究者首先将数据按任务和传感器类型进行预处理,包括时间序列归一化、一阶与二阶导数计算及快速傅里叶变换,以增强特征表达。随后,针对每种模态独立训练基于LSTM的循环神经网络,采用三元组损失函数学习判别性嵌入表示,其中时间窗口大小根据模态动态调整(如背景传感器为150个样本,触摸任务为20至100个样本)。在验证与评估阶段,利用前两个会话作为注册数据,后两个会话用于验证,通过计算嵌入向量间的欧氏距离得到得分,并采用分数级融合策略整合多模态信息。数据集公开提供了训练/验证/评估集的划分规则及评估脚本,研究者可直接加载数据,按协议生成真伪分布,计算AUC等指标,从而公平对比不同方法的性能。
背景与挑战
背景概述
在移动设备日益普及的当下,基于行为生物特征的身份认证技术因其能够实现无感的持续验证而备受关注。然而,现有研究多聚焦于随机冒用场景,即冒用者与合法用户使用不同设备,却鲜有探究同一设备上不同用户行为差异的挑战。为填补这一空白,西班牙马德里自治大学Giuseppe Stragapede等研究人员于2022年创建了BehavePassDB数据集。该数据集涵盖81名用户在四次采集会话中完成的八项模拟人机交互任务,并同步采集触屏及15种背景传感器数据。其核心创新在于设计了“随机冒用”与“熟练冒用”双场景,尤其后者要求冒用者模拟合法用户在相同设备上的操作,从而量化设备偏差对认证性能的影响。该数据集作为IJCB 2022 MobileB2C竞赛的基准,为移动行为生物特征研究提供了标准化的评估框架。
当前挑战
BehavePassDB所面临的核心挑战之一是设备偏差问题:由于不同智能手机的传感器校准差异,模型可能错误地学习到设备特征而非用户行为特征,导致在熟练冒用场景下性能大幅下降。实验表明,线性加速度计和磁力计等传感器在随机冒用场景下AUC可达75%,但在熟练冒用场景中骤降约20%,揭示了模型对设备指纹的过度依赖。此外,数据集构建过程中面临多重困难:需在无监督环境下协调81名用户完成四次间隔至少24小时的采集,确保用户使用自有设备的同时,安排30名冒用者在最后两阶段模仿合法用户操作。任务设计需平衡信息密度与采集便捷性,例如键盘类型(自定义与固定键盘)的选择直接影响特征提取维度。最后,公开基准的建立要求严格划分训练、验证与评估子集,并制定统一的实验协议,以保障不同研究间的公平对比。
常用场景
经典使用场景
BehavePassDB作为移动行为生物特征领域的标志性公开数据库,其最经典的使用场景聚焦于对智能手机用户进行持续且无感的身份验证研究。该数据库通过模拟日常移动人机交互中的核心任务,例如解锁图案绘制、文本输入、画廊滑动、屏幕点击以及签名书写等,同步采集了触屏数据和多达15种背景传感器数据。研究者可利用这些多模态时序信号,构建并评估能够在用户自然使用手机过程中不间断验证其身份的深度学习模型,从而推动从传统的单次入口认证向持续、透明的安全范式演进。
实际应用
在实际应用层面,BehavePassDB为移动安全领域提供了极具价值的测试床,尤其适用于构建多因素认证体系中的第二道防线。例如,在银行、支付等高风险远程移动应用中,该数据集支持开发能够在用户进行敏感操作(如转账)时,通过融合触屏动态与设备运动传感器信号进行二次身份确认的算法。此外,针对设备失窃后攻击者可能直接利用已解锁会话的安全漏洞,BehavePassDB的熟练伪造场景为模拟此类“午餐攻击”提供了真实数据,助力研发能够抵御同设备冒用行为的主动防御系统。
衍生相关工作
基于BehavePassDB,研究社区已衍生出一系列具有影响力的经典工作。其中最具代表性的是由数据集作者发起的MobileB2C国际竞赛,该竞赛以BehavePassDB为统一评估平台,吸引了全球多个研究团队提交基于不同深度学习架构的认证方案,极大促进了方法的公平比较与透明评估。此外,围绕该数据库,研究者们探索了基于三元组损失的LSTM网络在单模态与多模态融合下的性能边界,并衍生出针对设备偏差的噪声注入正则化技术,以及用于评估模型泛化能力的标准实验协议,这些工作共同构成了移动持续认证领域的重要里程碑。
以上内容由遇见数据集搜集并总结生成



