Aalto Keystroke Databases

Name: Aalto Keystroke Databases
Creator: 生物识别与数据模式分析实验室（BiDA），马德里自治大学，西班牙
Published: 2023-12-22 18:04:48
License: 暂无描述

arXiv2023-12-22 更新2024-06-21 收录

下载链接：

https://userinterfaces.aalto.fi/

下载链接

链接失效反馈

官方服务：

资源简介：

Aalto Keystroke Databases是一个大规模的公开数据集，包含超过185,000个用户的击键数据，这些数据通过桌面和移动键盘收集。数据集用于评估和基准测试基于击键动态的生物识别验证系统。每个采集会话包含一个转录文本句子，用户被要求阅读、记忆并在其设备上键入这些句子。数据集还包括用户的年龄和性别等元数据，这些数据是通过网络应用在真实场景下无监督地捕获的。该数据集支持对生物识别系统的性能和公平性进行全面分析，特别关注性别和年龄等敏感属性的影响。

Aalto Keystroke Databases is a large-scale public dataset comprising keystroke data from over 185,000 users, collected via both desktop and mobile keyboards. The dataset is intended for evaluating and benchmarking keystroke dynamics-based biometric verification systems. Each collection session includes a transcribed text sentence, where users are instructed to read, memorize, and type the sentence on their devices. The dataset also contains metadata such as users' age and gender, which was unsupervisedly captured via web applications in real-world scenarios. This dataset enables comprehensive analysis of the performance and fairness of biometric systems, with a particular focus on the impacts of sensitive attributes including gender and age.

提供机构：

生物识别与数据模式分析实验室（BiDA），马德里自治大学，西班牙

创建时间：

2023-11-10

搜集汇总

数据集介绍

构建方式

在行为生物识别领域，键盘动态学作为一种重要的身份验证手段，其数据集的构建需兼顾规模与多样性。Aalto Keystroke Databases的构建依托于桌面与移动两种键盘环境，通过网页应用在无监督条件下采集超过185,000名受试者的击键数据。受试者被要求阅读、记忆并输入随机选取的英文句子，每个会话平均包含约48个字符。原始数据包括按键与释放的时间戳及ASCII码，经过筛选后，剔除会话数不足的受试者，最终形成开发集与评估集，并以Python嵌套字典格式存储，确保了数据的结构化与易用性。

特点

该数据集的核心特点在于其规模宏大与场景全面，涵盖了桌面与移动两种键盘环境，击键序列基于转录文本格式，既非完全自由文本也非固定文本，平衡了数据稀疏性与真实性。数据集中包含受试者的年龄与性别自报告元数据，支持针对人口统计学偏见的公平性评估。此外，数据经过精心处理，排除了损坏或不足的会话，确保了数据质量与一致性，为大规模键盘动态生物识别研究提供了可靠基准。

使用方法

数据集的使用遵循开放集学习协议，开发集与评估集的受试者互不重叠。评估任务设计为生物识别验证，涉及会话级别的成对比较，生成介于0到1之间的相似度分数。研究人员可利用提供的Python脚本加载数据、运行比较并生成分数文件，进而通过CodaLab平台提交以获取性能与公平性指标。该框架支持对输入特征、分类器架构及学习方法的系统评估，为键盘动态生物识别领域的算法比较与公平性研究提供了标准化实验环境。

背景与挑战

背景概述

Aalto Keystroke Databases 是由芬兰阿尔托大学用户界面研究组于2018年至2019年间构建的大规模公开击键动力学数据集，旨在为行为生物识别领域提供高质量的基准数据。该数据集涵盖了桌面和移动设备两种采集环境，分别包含约168,000名和37,000名受试者的击键序列，数据以转录文本形式采集，每名受试者需输入随机分配的英文句子。核心研究问题聚焦于利用击键动力学进行身份验证，通过分析用户在打字过程中的时间模式（如按键间隔、释放时间等）实现透明且无需额外硬件的生物识别。该数据集因其规模庞大、场景多样且标注了年龄与性别等人口统计信息，显著推动了击键生物识别技术在公平性评估、隐私保护及跨设备性能比较等方面的研究进展，成为该领域最具影响力的基准资源之一。

当前挑战

击键动力学验证领域面临两大核心挑战：其一，在解决身份验证问题时，击键行为的高类内变异性和低类间差异性导致模型区分难度大，尤其在移动设备上因打字姿态多变而加剧；同时，大规模应用中需处理数十万用户的数据稀疏性与不平衡分布，对算法泛化能力提出严峻考验。其二，在数据集构建过程中，采集无监督环境下的真实击键数据需克服文本内容隐私泄露风险，原始ASCII码的存储可能暴露用户输入内容；此外，协调桌面与移动设备的异构硬件特性、确保数据质量一致性，以及整合年龄、性别等敏感属性的标注而不引入偏差，均是构建过程中需精细权衡的技术难点。

常用场景

经典使用场景

在行为生物识别领域，Aalto Keystroke Databases 作为大规模公开数据集，其经典应用场景聚焦于基于击键动力学的身份验证研究。该数据集通过采集超过18.5万用户在桌面和移动设备上输入的转录文本击键序列，为研究者提供了丰富的时序行为特征，如按键持续时间、间隔时间等。这些数据被广泛用于构建和评估击键生物识别系统，以探索个体在打字行为中独特的动态模式，从而在无需额外硬件的情况下实现透明、连续的身份认证。

衍生相关工作

该数据集衍生了一系列经典研究工作，显著推动了击键生物识别领域的发展。基于其数据构建的TypeNet模型采用LSTM网络与三元组损失，在桌面场景中展现出优越性能；而TypeFormer模型则引入Transformer架构，通过时间与通道模块处理移动设备击键数据，提升了复杂场景下的识别鲁棒性。此外，Keystroke Verification Challenge (KVC) 竞赛以该数据集为基础，建立了统一的评估协议与公平性基准，促进了多系统性能比较。后续研究进一步探索了特征优化、偏差缓解及隐私保护方法，为行为生物识别的实际部署奠定了理论基础。

数据集最近研究