five

塞内加尔基于移动电话数据的高度细粒度临时迁移数据集|人口迁移数据集|移动电话数据分析数据集

收藏
arXiv2024-06-21 更新2024-08-06 收录
人口迁移
移动电话数据分析
下载链接:
http://arxiv.org/abs/2406.15216v1
下载链接
链接失效反馈
资源简介:
本数据集由法国发展研究院和Trinity College Dublin联合创建,专注于塞内加尔的临时迁移模式,利用移动电话数据捕捉了2013至2015年间151个地点的迁移流量和存量。数据集详细记录了每个半月的迁移情况,特别关注持续20至180天的迁移事件。创建过程中,研究团队采用了一种精细的方法论框架,通过移动电话元数据识别临时迁移事件,并解决了在将个体轨迹聚合为迁移统计数据时遇到的关键挑战。此数据集的应用领域广泛,包括经济学、人口学和环境社会学等,旨在深入理解临时迁移的特征、原因及其对社会经济和环境挑战的影响,为政策制定和发展实践提供数据支持。
提供机构:
法国发展研究院
创建时间:
2024-06-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过利用移动电话数据中的通话详单记录(CDR)来构建,这些数据由塞内加尔的主要电信公司Sonatel提供。数据集首先将通话塔坐标转换为连续的单元格,然后通过Voronoi剖分技术将这些单元格与行政区域相结合,形成了覆盖整个国家的916个单元格,包括39个城市和877个农村地区。接着,数据集通过伪匿名化处理以保护用户隐私,并对数据进行筛选,以选择满足最低观测约束的用户。最后,通过开发一套算法工具,包括用于检测数字痕迹中临时迁移事件的算法方法和将个人轨迹汇总为一致迁移统计数据的规则,构建了最终的临时迁移数据集。
特点
该数据集的特点在于其高度细粒度,它提供了从2013年到2015年,每半个月期间在塞内加尔151个地点之间流动的迁移流量和存量数据。数据集特别关注持续时间为20至180天的迁移活动,并以前所未有的时空细节捕捉了临时迁移模式。此外,数据集还提供了两种类型的迁移估计:未加权和加权估计,以考虑不同人群的迁移行为差异。
使用方法
该数据集的使用方法包括下载和访问数据集,以及使用提供的shapefile文件来映射临时迁移估计并与其他空间数据相结合。用户可以根据需要将数据集聚合到更粗的空间和/或时间分辨率,但需要注意某些限制。例如,计算迁移率可能需要额外的信息,而迁移存量估计则可以在更长的时间段内进行空间聚合。数据集还提供了高置信度和低置信度估计,以帮助用户了解数据的不确定性。
背景与挑战
背景概述
人口流动对于理解发展中国家面临的各种社会经济和环境挑战至关重要。然而,传统调查往往无法有效地捕捉这类移动,尤其是在撒哈拉以南非洲地区,可靠数据的匮乏尤为突出。Paul Blanchard 和 Stefania Rubrichi 等研究人员通过分析移动电话数据,创建了塞内加尔的高度细粒度临时迁移数据集,旨在以前所未有的时空细节捕捉临时迁移现象。该数据集提供了2013年至2015年期间,在全国151个地点之间,每隔半月一次的迁移流量和存量数据,重点关注持续20至180天的迁移事件。该研究不仅包括检测数字轨迹中临时迁移事件的算法方法,还解决了将个人轨迹汇总为连贯迁移统计数据的关键挑战。这些方法论进展不仅对数据集的内在价值至关重要,而且还可以适应其他数字轨迹数据集,以生成其他背景下的系统性迁移统计数据。
当前挑战
该数据集在解决临时迁移问题方面面临着多重挑战。首先,临时迁移的测量难度大,由于样本流失和回忆偏差等原因,传统调查往往难以捕捉这类短期的移动。其次,构建过程中遇到的挑战包括如何从移动通信元数据中准确识别临时迁移事件,以及如何处理用户轨迹的不规则性。此外,由于用户的不活跃期可能会影响迁移事件的确切起始和结束日期,因此在时间上细分的临时迁移测量方法也面临一定的方法论问题。为了解决这些问题,研究人员采用了聚类方法和一套算法规则来识别临时迁移事件,并利用加权方案来纠正因移动电话所有权和使用模式差异造成的样本偏差。
常用场景
经典使用场景
塞内加尔基于移动电话数据的高度细粒度临时迁移数据集在研究人口流动方面具有显著价值。它通过移动电话数据,以空前的时空细节捕捉了塞内加尔的临时迁移情况,为研究临时迁移的特点、原因和后果提供了坚实基础。数据集包含2013年至2015年期间,全国151个地点每半个月一次的迁移流量和存量数据,重点关注持续时间为20至180天的迁移活动。此外,数据集还提供了一套方法工具,包括用于检测数字轨迹中临时迁移事件的算法方法,以及将个人轨迹汇总为连贯迁移统计数据的关键挑战。
衍生相关工作
该数据集的衍生相关工作包括:1. 开发算法工具,用于检测数字轨迹中的临时迁移事件;2. 解决将个人轨迹汇总为连贯迁移统计数据的挑战;3. 研究移动手机数据在测量人类迁移方面的潜力和局限性;4. 探索移动手机数据在制定和评估政策干预措施方面的应用。这些相关工作有助于进一步发展和完善移动手机数据在人口迁移研究中的应用,并为相关领域的研究提供新的思路和方法。
数据集最近研究
最新研究方向
该数据集的研究方向主要集中在利用移动电话数据来捕捉临时迁移的模式和趋势,尤其是在撒哈拉以南非洲地区。通过使用算法方法检测数字痕迹中的临时迁移事件,并解决将个体轨迹汇总成连贯迁移统计的关键挑战,该数据集为理解临时迁移的特征、原因和后果提供了坚实的基础。此外,该数据集还提供了跨151个地点和每个半月期的迁移流量和存量数据,为研究不同学科(包括经济学家、人口统计学家、环境社会学家等)的研究人员提供了丰富的信息资源。该数据集的最新研究方向还包括利用移动电话数据来量化季节性和临时迁移运动,并解决现有方法中存在的局限性,如时间分辨率和迁移流量方向的表征。此外,该数据集还致力于解决时间细分的临时迁移措施的生成问题,并提出了系统性的方法来解决这些方法ological问题。
相关研究论文
  • 1
    A Highly Granular Temporary Migration Dataset Derived From Mobile Phone Data in Senegal法国发展研究院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

烟火数据集

烟火数据集是一个专门用于烟火识别和检测任务的数据集,旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据,具有广泛的应用前景和重要的研究价值。

阿里云天池 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录