five

个人级家庭位置检测真实数据集

收藏
arXiv2020-10-17 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2010.08814v1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘个人级家庭位置检测真实数据集’,由智利圣地亚哥德维多利亚大学工程学院与Telefónica R&D Santiago合作创建。数据集包含65名参与者的详细家庭地址及可能服务他们的天线信息,旨在为家庭位置检测算法提供真实基准。数据集内容涵盖呼叫详细记录(CDRs)、扩展详细记录(XDRs)和控制平面记录(CPRs),这些数据流不仅在时间粒度上有所不同,而且在数据生成机制上也存在差异。创建过程中,研究人员获取了参与者的书面同意,收集了两周的手机记录及其确切住址。该数据集的应用领域主要集中在通过移动电话数据识别个人居住地,解决如人口密度估计、通勤和迁移流、空气污染及隐私风险评估等问题。

This dataset is named 'Personal-level Real-world Dataset for Home Location Detection'. It was collaboratively created by the School of Engineering, Universidad de Santiago de Victoria, Chile, in partnership with Telefónica R&D Santiago. The dataset contains detailed home addresses of 65 participants and information about the antennas potentially serving them, aiming to provide a real-world benchmark for home location detection algorithms. It covers Call Detail Records (CDRs), Extended Detail Records (XDRs) and Control Plane Records (CPRs), which differ not only in temporal granularity but also in their data generation mechanisms. During the dataset development process, researchers obtained written consent from all participants and collected two weeks of mobile phone records along with their exact home addresses. The primary application domains of this dataset focus on identifying individual residential locations using mobile phone data, addressing issues including population density estimation, commuting and migration flows, air pollution, and privacy risk assessment.
提供机构:
智利圣地亚哥德维多利亚大学工程学院
创建时间:
2020-10-17
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于智利圣地亚哥的65名Telefónica员工构建,参与者书面同意提供其精确家庭地址及两周内(2019年9月24日至10月6日)的三种移动电话记录流:通话详细记录(CDRs)、扩展详细记录(XDRs)和控制平面记录(CPRs)。通过反向地理编码将家庭地址转换为经纬度坐标,并提取每位用户访问的基站标识、访问频率及距其住所最近的三个基站信息,最终形成包含活动记录、基站位置和真实家庭位置的三类子数据集。
使用方法
研究人员可利用该数据集验证五种主流家庭检测算法(HDA1-HDA5)的准确性,通过比较每个数据流下算法识别的最活跃基站与用户真实住所最近三个基站的匹配程度来评估性能。数据集提供聚合后的活动记录(按设备、基站、数据流和算法组织),支持重现论文中的精度分析、算法一致性评估及数据最小化实验——通过随机抽样不同比例记录,探索在保障检测精度的前提下所需的最小数据量,从而优化隐私保护与数据效用的平衡。
背景与挑战
背景概述
在官方统计与社会科学研究中,利用移动电话数据推断个体家庭位置已成为人口密度估计、通勤流动分析及隐私风险评估等任务的关键环节。然而,现有家庭检测算法(HDAs)多依赖启发式规则,缺乏基于真实标签的系统性验证。2020年,由Luca Pappalardo、Leo Ferres等来自ISTI-CNR、智利德尔萨罗洛大学及Telefónica R&D的研究人员,发布了首个个人级家庭位置检测真实数据集。该数据集包含65名智利圣地亚哥志愿者的精确家庭地址及两周内三种移动数据流(CDRs、XDRs、CPRs),旨在评估不同算法与数据流组合的家庭检测准确性。这一开创性工作填补了该领域个体级验证的空白,为提升官方统计中移动数据的可用性与可靠性奠定了重要基础。
当前挑战
该数据集面临的核心挑战在于家庭检测算法准确性的系统性验证不足。一方面,现有HDAs多基于通话记录(CDRs)等稀疏数据,其时间粒度与触发机制差异导致检测结果高度不稳定;另一方面,缺乏个体级真实标签使得算法性能评估长期依赖聚合层面的间接比较。具体挑战包括:1)不同数据流(CDRs、XDRs、CPRs)在时间分辨率与数据生成机制上的显著差异,需确定最优数据流以平衡精度与数据量;2)五种主流HDAs(如基于夜间活动或空间邻域的算法)在相同数据流下的检测结果存在高达41%以上的分歧,需明确算法选择对结果的影响;3)构建过程中需在隐私保护前提下获取65名志愿者的精确家庭位置与多源手机记录,数据采集与匿名化处理的复杂性对数据质量与代表性构成潜在制约。
常用场景
经典使用场景
在移动通信数据挖掘领域,家庭位置检测是人口密度估计、通勤流分析与隐私风险评估等研究的基石。该数据集基于65名智利圣地亚哥志愿者的真实住址与两周内通话详单、扩展详单及控制面记录三类移动数据流,为验证家庭检测算法的准确性提供了前所未有的个体级基准真相。研究者常利用此数据集,通过比较不同算法(如基于最高呼叫次数、夜间活跃度或空间邻域规则)在三种数据流上的表现,系统评估其检测家庭基站的精度,从而揭示数据稀疏性与触发机制对定位效果的影响。
解决学术问题
该数据集核心解决了长期困扰学界的两个关键问题:一是缺乏个体级基准真相导致家庭检测算法验证困难,二是不同数据流(人类触发的CDR、人机混合的XDR与纯机器触发的CPR)对检测精度的作用不明。通过量化分析,研究发现XDR流结合夜间活跃度算法(HDA3)可实现68%的最高准确率,而CDR流精度与稳定性均最低,质疑了过往大量基于CDR的研究结论。这一成果为移动数据用于官方统计提供了方法论校准,推动了家庭检测从经验启发式向可验证科学范式的转变。
实际应用
在实际应用中,该数据集为电信运营商与政府统计部门优化数据采集策略提供了直接指导。数据最小化实验表明,仅需10%的CPR记录即可达到与全量数据相当的检测精度,而CDR需40%以上,这极大降低了数据请求的存储与计算成本。基于此,运营商可优先采用CPR或XDR流进行实时人口密度监测、通勤模式挖掘及流行病传播建模,同时平衡地理隐私保护与数据效用。此外,该数据集还可用于校准基于手机信令的空气质量暴露评估与灾害应急响应中的居民定位。
数据集最近研究
最新研究方向
在移动通信数据驱动的社会感知研究中,家庭位置检测作为连接数字足迹与人口普查数据的关键纽带,正经历从传统CDR数据向多源异构数据流(XDR与CPR)的范式转变。最新前沿聚焦于利用个人级真实标注数据集,系统评估不同数据流(人类触发的CDR、人机混合的XDR、纯网络触发的CPR)与五种主流家庭检测算法(HDA1-HDA5)的协同效能。研究发现,夜间活跃度算法(HDA3)结合XDR数据流可达到68%的检测准确率,显著优于传统CDR方案,而CPR数据流在数据最小化实验中展现出惊人的鲁棒性——仅需10%的记录即可维持全量数据的检测精度。这一突破性进展不仅挑战了长达十年的CDR研究基础,更通过量化数据效用与隐私风险的权衡,为智慧城市的人口动态监测、通勤流建模及污染暴露评估提供了可复现的方法论基准,推动官方统计领域从启发式规则向数据驱动原则的深刻转型。
相关研究论文
  • 1
    An individual-level ground truth dataset for home location detection智利圣地亚哥德维多利亚大学工程学院 · 2020年
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务