five

KidSat

收藏
arXiv2024-07-08 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.05986v1
下载链接
链接失效反馈
官方服务:
资源简介:
KidSat数据集由牛津大学等机构创建,结合了高分辨率卫星图像和详细的儿童贫困调查数据,旨在通过卫星图像分析儿童贫困情况。该数据集包含33,608张10 km × 10 km的图像,覆盖东非和南非的19个国家,时间跨度为1997至2022年。数据集的创建过程结合了联合国儿童基金会(UNICEF)的多维儿童贫困定义和人口与健康调查(DHS)项目的数据。KidSat数据集主要应用于机器学习模型的基准测试,特别是在卫星图像分析和儿童贫困预测领域。
提供机构:
牛津大学
创建时间:
2024-07-08
搜集汇总
数据集介绍
main_image_url
构建方式
KidSat数据集的构建结合了来自Sentinel-2和Landsat系列卫星的高分辨率影像与来自DHS项目的详细调查数据。数据集包含了1997年至2022年间,来自19个东非和南部非洲国家的33,608张10公里×10公里的影像。影像的选取标准是特定的年份和当年云量最少。DHS数据涵盖了广泛的健康和人口统计指标,并基于UNICEF的多维儿童贫困定义,通过17个变量评估儿童在住房、水、卫生、营养、健康和教育六个维度上的贫困程度。
使用方法
使用KidSat数据集进行研究的步骤包括数据准备、模型训练和评估。首先,研究者需要从数据集中选择适当的卫星影像和调查数据。接着,使用选定的模型(如MOSAIKS、DINOv2或SatMAE)对卫星影像进行特征提取或预训练。然后,将提取的特征或预训练模型与DHS数据相结合,通过微调模型以预测儿童贫困指标。最后,使用均方误差(MAE)评估模型在空间和时间基准上的性能。数据集提供了开源代码,用于构建卫星数据集、获取DHS数据以及运行各种模型。
背景与挑战
背景概述
KidSat数据集由牛津大学计算机科学系的研究人员创建,旨在通过将卫星图像与高质量的儿童贫困调查数据相结合,为卫星特征表示提供一个基准。该数据集包含来自1997年至2022年间19个东非和南部非洲国家的33,608张10公里×10公里的图像。这些图像与联合国儿童基金会定义的多维儿童贫困数据相结合,该数据基于面对面的人口和健康调查(DHS)项目计算得出。KidSat数据集的创建是为了解决机器学习在卫星图像分析领域的应用不足的问题,并为了提供一个标准化的基准,以便研究人员和开发人员可以测试和比较他们的模型。该数据集的影响力在于,它为评估卫星图像在预测儿童贫困方面的能力提供了一个平台,这对于政策制定者和研究人员来说是一个重要的工具。
当前挑战
KidSat数据集面临的挑战包括:1) 卫星图像的分辨率在不同尺度上有所变化,从不到1米到超过1公里,这使得模型难以处理和分析;2) 卫星图像的异质性,因为可用的波段数量从RGB的3个波段到多光谱到高光谱不等,这给模型的泛化能力带来了挑战;3) 时间序列预测的难度,因为模型需要能够捕捉到时间上的趋势和变化,以便能够对未来几年的贫困情况进行预测;4) 卫星图像与地面真实数据之间的对齐问题,因为卫星图像和地面真实数据可能不是在同一时间收集的,这可能导致数据不一致。
常用场景
经典使用场景
KidSat数据集是卫星图像与高质量儿童贫困调查数据相结合的基准数据集,主要用于评估卫星特征表示的能力。数据集包含来自19个东非和南非国家的33,608张10公里×10公里的图像,时间跨度为1997年至2022年。该数据集定义了多维儿童贫困的六个维度,并可以从面对面的“人口和健康调查”(DHS)计划中计算得出。KidSat数据集的基准测试包括空间和时间的泛化能力,通过在未见过的地方和训练年份之后的数据上进行测试。使用该数据集,我们评估了多种模型,从低级卫星图像模型如MOSAIKS,到深度学习基础模型,包括通用视觉模型如Self-Distillation with no Labels(DINOv2)模型和特定卫星图像模型如SatMAE。我们提供了构建卫星数据集的开源代码,从DHS获取地面真实数据,并运行我们工作中评估的各种模型。
解决学术问题
KidSat数据集解决了在缺乏调查数据的情况下,如何利用卫星图像预测儿童贫困的问题。传统的调查方法受地域和物流限制,而KidSat数据集通过结合高分辨率卫星图像和详细的调查数据,为研究人员和政策制定者提供了更准确和通用的贫困估计。此外,该数据集还展示了大型视觉模型在预测儿童贫困方面的潜力,有助于推动社会学研究和政策制定的发展。
实际应用
KidSat数据集的实际应用场景包括:1. 支持政策制定:通过预测儿童贫困,KidSat数据集可以帮助政策制定者更好地了解和解决不同地区的贫困问题,从而制定更有效的政策来减少全球贫困。2. 改进调查方法:KidSat数据集可以作为一种补充和增强传统调查方法的方式,特别是在缺乏调查数据的地区。3. 促进研究发展:KidSat数据集可以促进卫星图像和大型视觉模型在预测儿童贫困方面的研究发展,从而推动相关领域的进步。
数据集最近研究
最新研究方向
KidSat数据集通过将卫星影像与儿童贫困的高质量调查数据相结合,为卫星特征表示提供了基准。该数据集包含了来自19个东非和南部非洲国家的33,608张10公里×10公里的图像,时间跨度为1997年至2022年。KidSat数据集的提出,旨在解决当前卫星影像在机器学习领域缺乏标准基准的问题,并通过多维度儿童贫困的指标,为模型性能提供直观的评估。研究人员通过在未见过的位置和训练年后的数据上进行测试,评估了多种模型,包括低级别的卫星影像模型MOSAIKS和深度学习基础模型,如DINOv2和SatMAE。这项工作不仅展示了大型视觉模型在解决具有挑战性的预测任务方面的潜力,还强调了将遥感数据与机器学习技术相结合在解决复杂社会经济问题中的重要性。
相关研究论文
  • 1
    KidSat: satellite imagery to map childhood poverty dataset and benchmark牛津大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作