NFI_FARED_Digital_Traces

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/NetherlandsForensicInstitute/NFI_FARED_Digital_Traces

下载链接

链接失效反馈

官方服务：

资源简介：

这是荷兰法医研究所的法医活动识别数据集（NFI_FARED）的README文件。数据集收集了两种形式的数据：来自佩戴在受试者身上的iPhone的数字痕迹，以及来自佩戴在身上的惯性测量单元（IMU）的原始传感器信号。此数据集和README涉及数字痕迹数据。IMU数据可在其他地方获取。数据集作为论文《使用iPhone数字痕迹进行法医活动分类：基于机器学习的方法》的一部分发布。NFI_FARED包含来自14名参与者（8名男性，6名女性，年龄26.6±8.8岁）的数字痕迹数据。每名受试者在数据收集期间同时携带四部iPhone。数据是从数据收集实验后iPhone的`cache_encryptedC.db`和`healthdb_secure.sqlite`数据库中提取的，并使用NFI的专有脚本处理为.pkl文件。数据文件包含从不同表中提取的数据，如`MotionStateHistory`、`NatalieHistory`和`StepCountHistory`。所有数据文件中，包含实验元数据的列名以`META_`为前缀，如携带位置、iPhone类型、受试者ID、实验会话和活动标签。活动标签包括站立、坐、行走、跑步、火车、汽车、电车、公共汽车、骑自行车、上楼梯、下楼梯、下自动扶梯、上自动扶梯、下电梯、上电梯、拖拽、投掷、拳击、踢等。数字痕迹通常不是按固定间隔记录的，因此建议将不同数据库的痕迹聚合到更大的间隔（如一分钟）以实现一致性。

创建时间：

2025-12-08

原始信息汇总

数据集概述：NFI_FARED_Digital_Traces

基本信息

数据集名称：Netherlands Forensic Institute: Forensic Activity Recognition Dataset (NFI_FARED_Digital_Traces)
发布机构：Netherlands Forensic Institute (荷兰法医研究所)
关联论文：Forensic Activity Classification Using Digital Traces from iPhones: A Machine Learning-based Approach
论文链接：https://arxiv.org/abs/2512.03786
数据集地址：https://huggingface.co/datasets/NetherlandsForensicInstitute/NFI_FARED_Digital_Traces
配套IMU数据：https://huggingface.co/datasets/NetherlandsForensicInstitute/NFI_FARED_IMU
处理脚本GitHub：https://github.com/Con-or-McCarthy/Data2Activity_1

数据收集

参与者：14人（8名男性，6名女性），年龄26.6 ± 8.8岁。
设备：每位参与者同时携带四部iPhone。
设备型号与iOS版本：
- iPhone 6+ (iOS 11.4.1)
- iPhone 7 (iOS 14.7.1)
- iPhone 11 (iOS 13.1.1)
- iPhone XR (iOS 15.4.1)
数据来源：实验后从iPhone的 cache_encryptedC.db 和 healthdb_secure.sqlite 数据库提取。
数据处理：使用荷兰法医研究所的专有脚本处理为 .pkl 文件。

数据文件与内容

数据文件为 .pkl 格式，包含从不同数据库表提取的数据。

来自 `cache_encryptedC.db` 的文件

df_dict_motionstate.pkl：数据来自 MotionStateHistory 表。
df_dict_natalie.pkl：数据来自 NatalieHistory 表。
df_dict_stepcounthistory.pkl：数据来自 StepCountHistory 表。

来自 `healthdb_secure.sqlite` 的文件

df_dict_healthdb_floors.pkl：楼层数据，来自 sample 和 quantity_samples 表。
df_dict_healthdb_distance.pkl：距离数据，来自 sample 和 quantity_samples 表。
df_dict_healthdb_steps.pkl：步数数据，来自 sample 和 quantity_samples 表。

元数据列

所有数据文件中，实验元数据列均以 META_ 为前缀：

META_carrying_location：iPhone携带位置。取值为：hand, frontpocket, backpocket, breastpocket, rucksack。
META_telephone_type：iPhone型号。取值为：Iphone6+_IOS_11.4.1, IphoneXR_IOS_15.4.1, Iphone11_IOS_13.1.1, Iphone7_IOS_14.7.1。
META_test_subject：参与者ID编号。
META_experiment：实验会话编号。
META_label_activity：对应记录的真实活动标签。

活动标签

活动标签包括：standing, sitting, walking, running, train, car, tram, bus, cycling, stair_up, stair_down, escalator_down, escalator_up, elevator_down, elevator_up, dragging, throwing, punching, kicking。

标记为 no activity 的行来自录制会话中未跟踪的时刻（例如，从提供iPhone的办公室前往起始位置）。这些时段内的活动（或无活动）无法保证。

数据列说明

数据文件中的其他列包含手机记录的数据，变量名与原始数据库一致。
时间戳 startTime、start_date 和 end_date 已从Apple纪元时间转换为本地时间，并在列名后附加了 (local time)，例如 startTime (local time)。
原始的纪元时间在仍存在的列中附加了 (epoch)，例如 startTime (epoch)。

数据使用说明

数据特性：数字痕迹通常不是定期记录的，因此来自不同数据库的痕迹在时间上可能不一致。
处理建议：建议将不同数据库的痕迹聚合到更大的时间间隔（例如一分钟）以实现一致性。
处理工具：项目GitHub提供了Python脚本，可将 .pkl 文件处理为按指定间隔聚合的 .csv 文件。

引用

若在研究中使用此数据集，请引用：

@misc{mccarthy2025forensicactivityclassificationusing, title={Forensic Activity Classification Using Digital Traces from iPhones: A Machine Learning-based Approach}, author={Conor McCarthy and Jan Peter van Zandwijk and Marcel Worring and Zeno Geradts}, year={2025}, eprint={2512.03786}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.03786}, }

联系方式

数据处理、论文及项目GitHub相关问题：请联系 Conor McCarthy (c.t.mccarthy@uva.nl)
数据收集相关问题：请联系 Jan Peter van Zandwijk (j.p.van.zandwijk@nfi.nl)

搜集汇总

数据集介绍

构建方式

在法医活动识别领域，NFI_FARED_Digital_Traces数据集的构建体现了严谨的实验设计。该数据集源自荷兰法医研究所，通过14名参与者同时携带四款不同型号的iPhone进行数据采集，涵盖了包括站立、行走、交通工具乘坐及特定动作在内的19类活动。数据提取自iPhone的加密数据库文件，如cache_encryptedC.db和healthdb_secure.sqlite，并利用专有脚本处理为.pkl格式文件，确保了原始数字痕迹的完整性与可追溯性。

使用方法

为有效利用该数据集，研究者需首先将提供的.pkl文件转换为.csv格式，并借助项目GitHub仓库中的Python脚本进行时间聚合处理，例如按一分钟间隔整合数据。在模型训练过程中，应重点关注META_前缀的元数据列，这些列提供了设备与环境的关键上下文。数据集适用于机器学习方法开发，尤其在基于数字痕迹的法医活动分类研究中，能够为行为模式识别提供扎实的数据基础。

背景与挑战

背景概述

在法证科学与数字取证领域，对个体活动的精准识别与重建构成了关键研究议题。由荷兰法证研究所（Netherlands Forensic Institute）主导，并于2025年通过学术论文《Forensic Activity Classification Using Digital Traces from iPhones: A Machine Learning-based Approach》正式发布的NFI_FARED_Digital_Traces数据集，标志着该领域向利用智能手机数字痕迹进行法证活动识别迈出了重要一步。该数据集汇集了14名参与者携带四款不同型号iPhone所生成的数字轨迹数据，核心研究问题聚焦于如何从非侵入式、广泛存在的移动设备中提取可靠特征，以机器学习方法自动化分类包括站立、行走、乘坐交通工具乃至特定动作如拖拽、踢打在内的19类日常与法证相关活动。这一工作不仅深化了行为模式分析的理论基础，也为司法实践中的证据链构建提供了新颖的技术路径。

当前挑战

该数据集致力于解决法证活动识别这一复杂领域问题，其核心挑战在于如何从异构、异步且非规律采样的智能手机传感器与健康数据库日志中，鲁棒地提取并融合多源特征，以区分语义相近或情境重叠的精细活动类别，例如区分楼梯上行与电梯上行。在数据构建过程中，研究人员面临多重挑战：一是实验设计需确保多设备同步佩戴下数据采集的生态效度与伦理合规性；二是原始数据源自加密数据库（如cache_encryptedC.db与healthdb_secure.sqlite），需通过专有脚本进行解密、解析与时间戳转换，处理流程复杂；三是数据本身存在时间非对齐与采样不规则性，要求后续分析必须依赖有效的聚合方法（如按分钟间隔）以实现特征一致性，这为模型开发带来了额外的预处理负担。

常用场景

经典使用场景

在法证科学领域，数字痕迹分析正逐渐成为行为识别的重要手段。NFI_FARED数据集通过收集多部iPhone设备在人体携带时产生的数字痕迹，为法证活动识别提供了关键数据支持。该数据集最经典的使用场景在于训练和评估机器学习模型，以自动分类日常活动与交通方式，例如区分站立、行走、乘坐交通工具等。研究人员利用该数据集构建时间序列分类模型，通过聚合非均匀采样的数字痕迹至固定时间窗口，实现对复杂人类活动的精准推断，为法证调查中的行为重建奠定基础。

解决学术问题

该数据集有效解决了法证科学中活动识别数据稀缺的学术难题。传统法证分析往往依赖有限传感器或目击证据，缺乏系统化、多模态的行为数据。NFI_FARED通过同步采集多部iPhone的运动状态、步数、距离等数字痕迹，并标注精细的活动标签，为研究社区提供了标准化的基准数据。其意义在于推动了基于消费电子设备的法证分析方法发展，使机器学习模型能够从真实世界数字痕迹中学习复杂活动模式，提升了行为识别的客观性与可重复性，对计算法证学领域产生了深远影响。

实际应用

在实际应用层面，该数据集直接服务于法证调查与安全监控领域。执法机构可利用基于此类数据训练的模型，分析嫌疑人的数字设备痕迹，重建其历史活动轨迹，例如推断出行方式、身体活动强度或特定动作。此外，在安全监控中，系统可通过实时分析手机传感器数据，自动识别异常行为如拖拽、踢打等潜在威胁动作。该数据集的应用有助于开发非侵入式的行为分析工具，增强刑事侦查的效率和证据支撑，同时为个人设备安全与隐私保护研究提供实证基础。

数据集最近研究